广东省人民医院刘方舟曾平崔虎军李戚元丽黄牛挂号电话Soul App开源实时数字人生成模型SoulX-FlashTalk
黄牛号贩子跑腿代挂号(13241153586)微信需要挂号联系客服(13241153586)各大医院服务项目!专家挂号,办理住院加快.检查加快,产科建档,指名医生挂号北京,上海,南京,天津.广州,各大医院代挂号
近期,Soul App AI团队(Soul AI Lab)已开源实时数字人生成模型SoulX-FlashTalk 。这是首个能够实现0.87s亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型。
在持续建设AI能力的过程中,Soul团队始终致力于通过技术创新实现更沉浸、多元的交互体验。此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案,推动大参数量实时生成式数字人迈入可具体商用落地阶段。

SoulX-FlashTalk亮点:
四大关键指标,重塑实时互动体验
0.87s 亚秒级延时,即时交互
在实时视频交互中,延迟是决定用户体验的核心。SoulX-FlashTalk 凭借全栈加速引擎的极致优化,成功将首帧视频输出的延时降至0.87s亚秒级。
·“零延迟”即时反馈: 首次让 14B 级大模型数字人具备了即时反应能力,彻底消除了传统大模型生成的“滞后感”。
·全场景交互: 无论是视频通话中的即时对答、直播间弹幕的秒级互动,还是智能客服的实时响应,均能实现自然、流畅的深度对话。
32fps 高帧率,重新定义“流畅”
尽管搭载了 14B 参数量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高达 32 FPS。
·超越行业标准:远超直播所需的 25 FPS 实时标准,确保每一帧画面都丝滑顺畅。
·大模型,高性能:证明了 140 亿参数大模型在经过深度加速优化后,依然可以拥有极佳的运行效率。
超长视频稳定清晰生成,告别画面“崩坏”
数字人视频最怕在生成中出现人物面部不一致或显著画质下降的问题。SoulX-FlashTalk 凭借独家的自纠正双向蒸馏技术,解决了这一痛点:
·无感纠错,画质无损:引入多步回溯自纠正机制,模拟长序列生成的误差传播并进行实时修正,就像为 AI 装上了“实时校准器”,主动恢复受损特征。
·超长视频,稳定生成: 不同于传统的单向依赖,SoulX-FlashTalk 完全保留了双向注意力机制,让每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,这意味着在超长直播中,主播的口型、面部细节和背景环境将始终保持一致,不会出现模糊或变形。
全身动作交互:不只是“口型对齐”
SoulX-FlashTalk 突破了传统数字人仅能实现面部“对口型”的局限,带来了更加真实自然的全身肢体动态表现。
·全身肢体动态合成: 不同于仅对脸部进行局部重绘的方案,SoulX-FlashTalk 支持受音频驱动的全身动作生成,产生真实自然的人体动态。
·高精细手部表现: 基于14B DiT的强大建模能力,系统能够有效消除手部畸形与运动模糊,精准呈现结构清晰、纹理锐利的手部动作细节。
·灵动而不失稳定: 在追求大幅度动态表现力的同时,系统依然维持了极高的身份一致性(Subject-C 达 99.22),实现了动作灵活性与画面稳定性的完美平衡。
核心方案:
双向蒸馏+多步回溯自纠正机制
在行业中,传统数字人生成方案大多面临画面生成时间长、延迟高、生成效果差、效果不稳定、保真度低等问题。
在这样的背景下,SoulX-FlashTalk正式开源,为了平衡生成质量与推理速度,团队采用了两阶段训练策略:
第一阶段:延迟感知时空适配 (Latency-Aware Spatiotemporal Adaptation),结合动态长宽比分桶策略进行微调,使模型适应较低的分辨率和更短的帧序列;
第二阶段:自纠正双向蒸馏 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架压缩采样步数并移除无分类器引导(CFG),实现加速;多步回溯自纠正机制,通过 autoregressively 合成连续分块(最多 K个chunks),显式模拟长视频生成的误差传播;随机截断策略,在训练中在第 k(< K)个分块数进行反向传播,实现高效且无偏的显存友好优化 。

训练流程示意图
同时,团队进行实时推理加速系统优化, 针对 8-H800 节点设计的全栈加速引擎实现了亚秒级延迟 ,包括了
·混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使单步推理速度提升约5倍算子级优化:采用针对Hopper架构优化的FlashAttention3,通过异步执行进一步减少 20% 的延迟
·3D VAE 并行化:引入空间切片并行解码策略,实现VAE处理的5倍加速
·整链优化:通过 torch.compile 实现全流程图融合与内存优化
需要挂号联系客服 北京上海南京广州天津西安医院黄牛号贩子跑腿代挂号
