ChatPaper.aiChatPaper

Live Avatar: Echtzeit-Streaming von audio-gesteuerter Avatar-Generierung mit unbegrenzter Länge

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

December 4, 2025
papers.authors: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi
cs.AI

papers.abstract

Bestehende diffusionsbasierte Videoerzeugungsmethoden sind grundlegend durch sequenzielle Berechnung und Inkonsistenzen über lange Zeiträume eingeschränkt, was ihre praktische Anwendung in Echtzeit-Streaming-Anwendungen mit audiogesteuerter Avatarsynthese limitiert. Wir präsentieren Live Avatar, ein co-designiertes Algorithmus-System-Framework, das eine effiziente, hochauflösende und unbegrenzt lange Avatarerzeugung mit einem 14-Milliarden-Parameter-Diffusionsmodell ermöglicht. Unser Ansatz führt Timestep-forcing Pipeline Parallelism (TPP) ein, ein verteiltes Inferenzparadigma, das Denoising-Schritte über mehrere GPUs pipelined und so den autoregressiven Engpass durchbricht sowie stabile Echtzeit-Streaming mit niedriger Latenz gewährleistet. Um die zeitliche Konsistenz weiter zu verbessern sowie Identitätsdrift und Farbartefakte zu reduzieren, schlagen wir den Rolling Sink Frame Mechanism (RSFM) vor, der die Sequenztreue durch dynamische Neukalibrierung des Erscheinungsbildes mittels eines zwischengespeicherten Referenzbildes aufrechterhält. Zusätzlich nutzen wir Self-Forcing Distribution Matching Distillation, um eine kausale, streamfähige Adaption großer Modelle ohne Einbußen bei der visuellen Qualität zu ermöglichen. Live Avatar demonstriert State-of-the-Art-Leistung und erreicht eine Ende-zu-Ende-Generierung von 20 FPS auf 5 H800-GPUs. Nach unserem Wissen ist es der erste Ansatz, der eine praktisch einsetzbare, echtzeitfähige und hochauflösende Avatarerzeugung in dieser Skalierung erreicht. Unsere Arbeit etabliert ein neues Paradigma für den Einsatz fortgeschrittener Diffusionsmodelle in industriellen Anwendungen zur Synthese langformatiger Videos.
English
Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.
PDF1113December 6, 2025