ChatPaper.aiChatPaper

Avatar en Direct : Génération d'Avatars en Temps Réel Pilotée par l'Audio avec Durée Illimitée

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

December 4, 2025
papers.authors: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi
cs.AI

papers.abstract

Les méthodes existantes de génération vidéo basées sur la diffusion sont fondamentalement limitées par le calcul séquentiel et l'incohérence à long terme, ce qui restreint leur adoption pratique pour la synthèse d'avatars en temps réel pilotée par un flux audio. Nous présentons Live Avatar, un cadre co-conçu algorithme-système qui permet une génération d'avatars efficace, haute fidélité et de longueur infinie à l'aide d'un modèle de diffusion de 14 milliards de paramètres. Notre approche introduit le *Timestep-forcing Pipeline Parallelism* (TPP), un paradigme d'inférence distribué qui organise en pipeline les étapes de bruitage inverse sur plusieurs GPU, brisant efficacement le goulot d'étranglement autorégressif et garantissant une diffusion en temps réel stable et à faible latence. Pour améliorer davantage la cohérence temporelle et atténuer la dérive d'identité et les artefacts de couleur, nous proposons le *Rolling Sink Frame Mechanism* (RSFM), qui maintient la fidélité de la séquence en recalibrant dynamiquement l'apparence à l'aide d'une image de référence mise en cache. De plus, nous exploitons l'*autodistillation par appariement de distribution forcée* pour faciliter l'adaptation causale et streamable de modèles à grande échelle sans sacrifier la qualité visuelle. Live Avatar démontre des performances à la pointe de l'état de l'art, atteignant une génération de bout en bout à 20 FPS sur 5 GPU H800, et, à notre connaissance, est le premier système à réaliser une génération d'avatars pratique, en temps réel et haute fidélité à cette échelle. Notre travail établit un nouveau paradigme pour le déploiement de modèles de diffusion avancés dans les applications industrielles de synthèse vidéo longue.
English
Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.
PDF1113December 6, 2025