人报融媒讯 Soul App AI团队近期正式开源旗下实时数字人生成模型SoulXFlashTalk,作为行业内首个能够实现0.87秒亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B参数数字人模型,它凭借全维度性能升级,重新定义了实时在线交互的标准,也让大参数量实时生成式数字人真正迈入可商用落地阶段。在持续构建AI能力的过程中,Soul始终以技术创新为核心,致力于为用户打造更沉浸、更多元的交互体验,此次开源不仅在模型速度、生成效果、响应延迟与画面保真度上实现突破,更为全行业提供了可直接落地应用的业务解决方案。

SoulXFlashTalk的核心竞争力集中在四大关键指标,全方位升级实时互动体验。在延时表现上,模型依托全栈加速引擎的极致优化,将首帧视频输出延迟降至0.87秒,首次让14B级大模型数字人具备即时反应能力,彻底消除传统大模型生成时的滞后感,可完美适配视频通话即时对答、直播间弹幕秒级互动、智能客服实时响应等全场景需求,实现自然流畅的深度对话。在帧率表现上,即便搭载140亿参数的超大DiT模型,其推理吞吐量仍高达32fps,远超直播所需的25fps实时标准,确保画面全程丝滑顺畅,也用实际效果证明大参数模型经深度加速优化后,依然能保持极佳运行效率。
针对数字人视频生成中常见的面部不一致、画质大幅下降等痛点,SoulXFlashTalk搭载独家自纠正双向蒸馏技术,引入多步回溯自纠正机制,主动模拟长序列生成的误差传播并实时修正,相当于为AI配备实时校准器,可高效恢复受损画面特征。同时模型完整保留双向注意力机制,使每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,保障超长直播中人物口型、面部细节与背景环境始终保持一致,不出现模糊、变形等问题。此外,模型还突破传统数字人仅能实现面部对口型的局限,支持音频驱动的全身动作生成,呈现自然真实的肢体动态,依托14B DiT强大建模能力,有效消除手部畸形与运动模糊,精准还原清晰锐利的手部细节,在大幅提升动态表现力的同时,维持99.22的身份一致性,实现动作灵活与画面稳定的平衡。

训练流程示意图
为平衡生成质量与推理速度,SoulXFlashTalk采用两阶段训练策略,第一阶段为延迟感知时空适配,结合动态长宽比分桶策略微调,让模型适配低分辨率与更短帧序列;第二阶段为自纠正双向蒸馏,利用DMD框架压缩采样步数并移除无分类器引导实现加速,配合多步回溯自纠正机制与随机截断策略,完成高效且显存友好的优化。在推理加速层面,模型针对8H800节点设计全栈加速引擎,通过混合序列并行、FlashAttention3算子优化、3DVAE并行化与全流程图融合,实现亚秒级延迟输出。在TalkBenchShort与TalkBenchLong数据集测试中,模型在视觉保真度、口型同步精度等指标刷新行业记录,长视频生成仍稳定保持32fps吞吐量。
依托优异性能,SoulXFlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、互动NPC、智能客服等场景,有效解决传统数字人直播长时间运行后的同步漂移、画质衰减问题,大幅降低运营成本。此次开源是SoulAI布局的重要一步,继SoulXPodcast之后,Soul将继续聚焦交互能力提升,以开源生态携手全球开发者,推动AI+社交领域技术持续进步。
责任编辑:余妤