人报融媒讯 近些年来,实时数字人赛道一直被高算力门槛与低画质体验的矛盾所困:追求高保真需依赖昂贵的H800算力集群,降低成本则易出现面部僵硬、画面崩坏、唇形错位等问题,难以兼顾效率与质感。在此背景下,Soul张璐团队推出了1.3B轻量化实时数字人生成模型SoulX-FlashHead,为实时数字人落地提供了普惠化新方案。

SoulX-FlashHead核心亮点:不仅是实时,更是“算力自由”
在消费级显卡上,SoulX-FlashHead的实际表现如下:
lLite版本(高速率):当使用单卡4090推理时,帧率可达96FPS,仅占用6.4G显存资源,最高支持3路并发,这一特性使得实时数字人模型能够切实落地于消费级终端设备。
lPro版本(高画质):单卡5090推理帧率16.8FPS,双卡可实时(25fps+),FID(视觉质量指标)和Lip-sync(唇形一致指标)在benchmark上达到了SOTA,甚至超越了参数量更大的模型,有效攻克了“小模型难以呈现优质画质”这一行业难题。
原理介绍
如何让1.3B 模型“以小博大”?SoulX-FlashHead带来了一系列创新。首先是训练“指引者”方面,其采用双向蒸馏机制(Oracle-Guided Distillation),解决了长视频生成时,长期困扰行业的“身份漂移”问题,无论视频多长,人物特征始终稳定。

<span microsoft="" yahei";="" letter-spacing:="" 0px;"="">再来就是在流式生成过程中,若音频切片过短,口型就会出现抖动现象。为此其采取的创新举措是,强制模型对8秒的历史音频特征进行缓存,以此弥补上下文信息的不足。这给用户带来了良好的使用体验,有效解决了“口型出错”和“口型与声音不匹配”的问题,让生成过程从一开始就达到理想状态。
此外,SoulX-FlashHead还拥有自研 VividHead数据集,该数据集从10,000+小时素材中精炼出 782 小时高质量音画数据, 经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供了最纯净的“养料”。

客观表现
也正因如此,SoulX-FlashHead在HDTF与VFHQ 两大权威数据集的实测中,展现了出色的表现:画质方面,SoulX-FlashHead在高清视频(HDTF)评测中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成绩刷新纪录,视觉细腻度超过一些“大参数”模型;速度方面,SoulX-FlashHead仅凭1.3B的轻量化体量,Lite版本在单张 RTX 4090 上跑出了 96 FPS 的吞吐量。这不仅是实时基准(25 FPS)的 近4倍,推理效率更是行业同类主流模型的 100倍以上;口型精准捕捉方面,SoulX-FlashHead面对野外复杂场景(VFHQ),凭借独创的“时序音频上下文缓存”策略,其 Sync-C得分高达5.60,大幅领先此前相关工作,解决对不上口型的尴尬。


应用场景:“人人可用”的数字人技术
今年1月,Soul AI Lab开源了实时数字人生成模型SoulX-FlashTalk,能够实现0.87s亚秒级超低延时、32FPS高帧率,并支持超长视频稳定生成,实现了更广泛的场景应用:7x24h矩阵直播:个人主播用一台游戏 PC,即可搭建高保真电商直播间;AI一对一外教: 支持 15 种语言,实时将音频转化为生动的教学画面;游戏NPC引擎: 1.3B 体积极易集成,NPC 毫秒级响应,且不抢占核心渲染资源。
从SoulX-FlashTalk到SoulX-FlashHead,Soul张璐团队以持续开源与技术创新,将高保真数字人从云端机房推向消费级终端,低成本、高流畅、高保真成为了行业新标准,也为实时数字人真正迈入“人人可用、随处可跑”的普惠时代贡献了应有的Soul力量。
责任编辑:余妤