他们可能是伴你温暖的朋友,贴心的小助手,亦或是平行时空的另一个你…
如果说元宇宙是一个充满神秘与幻想,拉近用户沉浸在由数字科技所幻化出的平行时空,那虚拟人,无疑是每个用户进入元宇宙大门的门票。数字时代的未来将是元宇宙,这一点是没有悬念的,但元宇宙本身的走向,却充满不确定性,人们的定义无法达成共识,有些事情总会发生,但是以怎样的方式发生,没人能给出确切的答案。
相比起部分厂商所期望营建的宏大元宇宙场景。手机移动端的发力,似乎显得更接地气,更加务实,产品类型也更加丰富和新颖。伴随着一个个手机虚拟人产品的落地,连接两个平行时空的大门,也正在被缓缓开启。
一、行业背景:移动厂商纷纷进军虚拟人赛道
据QuestMobile数据显示,Z世代人群月均使用智能手机的时间长达174.9小时。作为数字原生代,Z世代消费者展现了与前辈们截然不同的消费特征。对于大多数Z世代来说,虚拟体验已经是打开新社交圈的方式和与同好互动的工具。经验良好且有趣的虚拟场景已成为Z世代青睐的产品。
随着先进技术的不断突破,元宇宙概念正在兴起。Z世代消费群体的崛起也为虚拟人带来了良好的市场。得益于深度学习算法的突破,近年来,虚拟偶像主播和虚拟助手等虚拟人物进入了公众视野,由智能驱动的虚拟人产业逐渐达到良好状态。
基于目前移动互联网时代的发展趋势,未来国内外的移动厂商,不仅要随时抢占市场热点,还要不断巩固自己的品牌文化个性和产品核心实力。他们不仅面向Z时代的年轻人,也不忽视前一代和下一代年轻人的感受,入局虚拟人这一领域则是必然的选择。
二、虚拟人技术概览
手机虚拟人作为虚拟人在移动端上的落地产品,其技术架构与常规虚拟人类似,其通用系统框架可分为形象生成、形象驱动、形象渲染以及识别理解+分析决策模块。
1. 形象生成
形象生成的过程即为建立数字资产的过程,通常由原画师负责虚拟人的外观设计,绘制出平面形象,再由3D建模师将原画转换为立体的模型,在建模的过程中,建模设计师的经验显得尤为重要,通过合理的叠加贴图方式和精度取舍,可以让虚拟人达到系统可以承载范围内的最佳效果。接下来再通过骨骼绑定和PC渲染让虚拟人可以像真人一样“活”起来,营造有血有肉的饱满视觉效果。
2. 形象驱动
形象驱动的种类较多,主要是为了让虚拟人可以根据人的指令进行不同的动作和反应,完成与用户之间的交互过程。常见的驱动形式包括:语音驱动、面部驱动、姿体驱动和手语驱动。
语音驱动:基于音频特征控制面部(口型)驱动动画;该过程主要包含音频特征提取、音素口型同步以及情绪表情对齐。
面部驱动:基于摄像头捕捉人脸特征,驱动模型实时驱动;
通过在面部进行关键点的定义,利用摄像头完成关键点的捕捉,最后根据追踪实时数据生成映射动画;
姿体驱动:基于摄像头捕捉姿体关键点信息,驱动模型实现姿体控制;
在进行姿体驱动时,通常需要在关键位置处(如手指、关节)等位置佩戴专业追踪设备,进行骨骼绑定,最后通过实时同步的动作映射完成逼真的动作录制。
手语驱动:以《国家通用手语词典》为标准,通过手语翻译引擎和自然动作引擎,为虚拟人赋予手语翻译和表达的能力,跨越信息障碍,更好的服务于听障人士。
根据是否需要实时动作捕捉,也可将虚拟人的驱动方式分为AI驱动和真人驱动两大类。
AI驱动:自动读取并解析识别外界输入信息 ,智能驱动虚拟人生成相应的语音与动作;
真人驱动:通过动捕设备或者摄像头,实时捕捉面部表情和动作。
3. 形象渲染
渲染在电脑绘图中是指用软件从模型生成图像的过程。模型是用严格定义的语言或者数据结构对于三维物体的描述,它包括几何、视点、纹理以及照明信息。核心功能包括:物理系统、光影计算、图形渲染。在手机端进行渲染的难点在于性能、功耗、内存之间的平衡与优化,以及尽可能地极致还原所设计的模型的真实感。
物理渲染所创造的人物及场景效果:
下图左为重光照技术渲染,右为实际拍摄情况,两者效果已几乎无明显差别:
4. 交互模块
交互模块是识别理解和分析决策模块的统称。为扩展项,仅存在于交互型虚拟人当中。其核心功能主要有:
先通过语音识别模块将自然语言转换成文字,随后将文字处理成词或句子向量,进入对话管理系统后,进行模型匹配和生成,把问句生成答句,再通过语音合成把文字转换输出给用户。
三、固定IP VS 千人千面
需要指出的是,手机上的虚拟人产品受移动设备的限制,难以落地高面数的虚拟人造型设计,尤其是在需要AI驱动或真人驱动的情况下,高面数的精致造型容易引起消耗过多流量和页面卡顿的问题。因此,虚拟人的造型选择和实现方式主要可分为两种,一种为“多面数固定IP+视频流推送”、另一种为“低面数千人千面捏脸+AI或真人驱动”。
固定IP是指虚拟人的形象为一固定形象,通常外观精致,可以作为公司品牌代言的一部分,也可以出现在短视频或交互相对简单甚至无交互的手机应用中;固定IP的调用方式通常为根据关键词推送特定的短视频流或随机播送短视频流;
千人千面通常为用户在数字世界的替身,用户可以根据自己喜好自定义虚拟人的外形,进行捏脸和服装匹配等,千人千面通常需要伴随虚拟人动作库的录制以及相应数字资产的设计。数字资产通常指可以替换的虚拟人外观特征,如发型、发色、眼睛、脸型、服装以及配饰等。千人千面的驱动方式主要为真人驱动,即虚拟人根据用户的脸部表情和动作做出相应的映射,与用户保持一致。
千人千面虚拟人的服装道具库:
千人千面虚拟人的动作库:
四、虚拟人外形分类
按照虚拟人的外形特征,可分为2D二次元、3D卡通、3D美型、超写实、和仿真人六大类。
以上六类虚拟人的外形差异主要是由精度和面数所决定的,面数越高则精度越高也就越可以朝真人的外观接近。面数越高需要占用的数据量和空间也就更大,不同类型的虚拟人外观适用于不同的平台或终端。
面数:是指三维建模中的立体形状都是由最基本的三角形平面为单位构成的,一个单位为一面,面数越高,则建模的精度越高,图形效果也更加精致。
五、手机移动端使用场景
移动端使用场景通常是交互方式与驱动方式综合影响的结果,根据有交互/无交互,真人驱动/AI驱动;移动端的使用场景可划分为:语音助手、桌面互动壁纸、电商直播、新闻播报、视频通话、视频会议、短视频、相机、相册等。
接下来,本文将根据主要的使用场景分类,介绍目前较为有代表性的手机移动端虚拟人产品:
1. 语音助手
(1)OPPO 小布虚拟人(布美美)
推出时间:2020.09.29
交互类型:关键词视频流推送、语音交互
外形:固定IP+3D卡通
小布虚拟人是基于虚拟人多模态交互的手机智能助手,涵盖视觉、语音、自然语言处理等多模态融合算法,依托小布助手的综合AI能力,实现与用户在多个场景生态下的内容服务、实时交互。目前的功能为AI新闻播报和天气播报。未来将同步开放小布虚拟人定制平台,未来能根据每个开发者的需求,演化出不同的个性化虚拟形象,如智能客服、虚拟助手、带货主播等,可搭载在多个智能终端设备上,进一步推进OPPO在个人物联网行业的发展。
(2)小米 小爱定制
推出时间:2021.09.27 和civi手机一同发布
交互类型:关键词视频流推送、语音交互
外形:千人千面捏脸、3D卡通
小爱同学的升级版,用户可以定制一个自己喜欢的小爱形象,再配合小爱现有的定制声音及唤醒词功能,轻松打造自己心目中的智能助手。支持声音定制,并将定制语音包分享给他人。专属的AI Being。未来有望性格也能个性化定制,成为赛博世界里最懂你的那个人。
(3)百度 度晓晓
推出时间:2021.01.17
交互类型:具备视觉识别和语音识别能力,包含AI驱动与视频流推送
外形:固定IP、3D美型卡通
语音类虚拟养成助手,可以通过语音或文字输入完成搜索人物或天气新闻播报,也可以进行换装和房间布置的养成类游戏。度晓晓拥有二次元虚拟人物形象和独特的情感交互系统,面对不同用户的性格和爱好,度晓晓的理解和反馈也会有所差异。每个用户的“度晓晓”都将自然产生不同的进化,拥有一个专属于你的“度晓晓”。
(4)百度 龚俊数字人
推出时间:2021.11.29
交互类型:、关键词视频流推送、语音识别
外形:固定IP、仿真人
是国内首个可交互超写实明星数字虚拟人,聚焦于实用功能,可满足用户在多场景下搜索需求,例如用户说出“今天天气怎样”,虚拟人即可快速识别并自动语音播报第一条搜索结果。除了对搜索结果进行播报外,还可对端功能进行控制,实现夜间模式、书架、游戏等功能的一语直达。在外表呈现上,百度引入了4D扫描技术捕捉真人说话以及日常表情的面部细微变化,做到对龚俊真人的超写实还原。
2. 桌面互动壁纸
(1)黑鲨 鲨鲨酱
推出时间:2021.03.23. 随黑鲨游戏手机4一同发布
交互方式:语音识别、触摸感知等
外形:固定IP、3D动漫角色
平时可以作为动态桌面背景,在进行游戏操作时,更能够帮助用户了解各类游戏特性的使用方法,玩游戏时可作为战况播报员。造型精美,有一批忠实的游戏粉丝,可以根据皮肤更换鲨鲨酱的外观,定义鲨鲨酱的动作和声音。充电时,鲨鲨酱也会一同充能,显示精美动画,此外,鲨鲨酱还拥有闹钟功能,以拟人的形式叫用户起床。
(2)米哈游 人工桌面(yoyo)
上线时间:2020.12.01.
交互方式:触摸感知
外形:固定IP、3D美型动漫
yoyo是米哈游开发的人工桌面里一名固定IP角色。画风细腻,桌面养成类游戏,可以以动态桌面的形式居住在用户的手机里,并可根据用户的触摸感知进行相应的反应,也可以根据不同的主题皮肤更换虚拟人的装扮和居住空间,起到情感陪伴和心灵治愈的作用,感受专属陪伴和沉浸式体验的乐趣。
3. 视频通话
(1)OPPO Omoji
推出时间:2021.9. 作为ColorOS 12新功能发布
交互方式:真人驱动,实时映射
外形:千人千面 脸部定制 3D卡通
用户可以根据自己的形象以及喜好捏出自己风味的 Omoji虚拟形象,其中肤色,发型,帽子,眼镜等包括五官都可以自己定义。设计后的形象可以接入视频会议,趣味拍照等活动中,面对突然会议,再也不用化妆,完美解决社恐问题。从技术的角度来看,通过引入了业内先进的Face Capture算法,Omoji基于50个核心表情基打造出了高精度3D模型,令虚拟化栩栩如生。目前仅支持定义头像,暂无下半身。
(2)苹果 Memoji
推出时间:2018.09.18 随iOS 12正式版推出
交互方式:真人驱动 实时映射
外形:千人千面 上半身定制 3D卡通
该功能使用Apple的Face ID相机系统,以便将流行的表情符号映射到你的脸部,以便它们看起来像是在实时录制中模仿你的面部表情。核心技术是通过结构光3D建模技术,实时捕捉用户面部表情变化并作出实时映射,连吐舌等细致变化都能检测并同步。具有国际化并多样性的素材可供用户DIY自己的头像和下半身(腰部以上)该功能与facetime和iMassage互联,将能在视频通话和短信发送上增添更多互动与乐趣。
4. 相机相册
(1)三星 AR萌拍
推出时间:2018.02.25 随三星Galaxy S9一同发布
交互方式:全身动捕、面部驱动、实时映射
外形:千人千面 全身定制 3D卡通
该功能位于三星手机自带相机的AR体验区,是一个简单的一站式商店模式,让用户可以在一个地方使用其基于现实的全系列功能。用户可以通过“动态萌拍相机”功能创建一个和自己很像的数字形象;再通过动态萌拍工作室创建自定义图案的服装;最后在动态萌拍贴纸功能中创建动态贴纸,可通过微信、彩信等方式发送。还支持舞蹈录制等有趣的创作方式。
(2)小米 Mimoji萌拍
推出时间:2019.07.02
交互方式:真人面捕、表情映射
外形:千人千面 3D卡通
通过Mimoji萌拍,用户可以根据自己的人脸进行建模,一键生成与自己类似的3D形象,如果对自动生成的样式不满意,可以进行修改编辑,包括发型,脸型,眼睛,眉毛,鼻唇,胡子,雀斑,眼镜,配饰等等方面都可以进行调节。在相册模块加入Mimoji以后,拍照录像有了更多新玩法,用户可以用虚拟的人物头像录制短视频,做成表情包分享到社交平台或者发到微信朋友圈等。
5. 虚拟社交平台
(1)崽崽 ZEPETO中文版
推出时间:2018.12.下旬
交互方式:按键操控、根据操控进行短视频流推送
外形:千人千面全身定制 3D卡通
由韩国SNOW公司出品的一款以Z世代用户为主的社交软件,用户进入软件之后,第一步是进行捏脸。系统会先帮助用户拍一张照片,生成一个大致相像的脸,然后用户就可以在这个“基础脸”之上进行任意的改动。捏脸之后,践行着“我的美要让全世界都看见”这一理念,用户可以在线与其他用户进行合影。崽崽的用户里既有脸型和服饰高级的时尚流,也有根据场景捏出最为合适造型的技术流,甚至通过崽崽在小红书中进行口红试色和服装搭配。
(2)腾讯 超级QQ秀
推出时间:2022.02.10.
交互方式:多模态交互
外形:千人千面 全身定制 3D卡通
QQ秀的升级版,完成了传统QQ秀虚拟形象由2D静态向3D动态的转变。超级QQ秀里不只服装,还增加了对虚拟形象发型、脸型、五官等细节的定制。另外,还有更加精致的服饰,用户可以更加完整的对形象进行打造。产品里新加入了可以由用户自行定制的小窝系统和可以走动聊天的室外场景,为QQ带来了传统线上社交模式所缺乏的临场感觉。场景化让超级QQ秀里的社交有了更多想象的空间。
6. 电商直播
(1)阿里云 淘宝智能直播间
推出时间:2020年夏
交互方式:文本识别、多模态智能交互
外形:千人千面捏脸定制
阿里云推出的一款由智能技术驱动一个虚拟形象在前台进行自动化开播、个性化推荐的一款智能产品。当商家付费开通后,可以通过捏脸选择不同服装,加定品牌logo服装,选择合适的声音和口音,一键化生成脚本等24*7小时使用品牌智能直播间,实现无人开播。虚拟人会自动挑选并识别买家的留言做出正确的解答,并在其中穿插关键词特效,如买一送一、最低折扣等吸引买家眼球。
以上,便是小编对移动端虚拟人产品,从技术侧到应用侧的探讨与总结,希望能对虚拟人产品感兴趣的朋友提供帮助和指引。