Live Avatar: Streaming van realtime audio-gestuurde avatar-generatie met oneindige lengte
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
December 4, 2025
Auteurs: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi
cs.AI
Samenvatting
Bestaande op diffusie gebaseerde videogeneratiemethoden worden fundamenteel beperkt door sequentiële berekening en inconsistentie op lange termijn, wat hun praktische toepassing in real-time, streaming audio-gestuurde avatarsynthese belemmert. Wij presenteren Live Avatar, een algoritme-systeem co-ontworpen framework dat efficiënte, hoogwaardige en oneindig lange avatargeneratie mogelijk maakt met behulp van een diffusiemodel van 14 miljard parameters. Onze aanpak introduceert Timestep-forcing Pipeline Parallelism (TPP), een gedistribueerd inferentieparadigma dat denoisestappen pipelineert over meerdere GPU's, waardoor de autoregressieve bottleneck effectief wordt doorbroken en stabiele, low-latency real-time streaming wordt gegarandeerd. Om de temporele consistentie verder te verbeteren en identiteitsdrift en kleurartefacten tegen te gaan, stellen we het Rolling Sink Frame Mechanism (RSFM) voor, dat sequentietrouw handhaaft door het uiterlijk dynamisch te herkalibreren met behulp van een gecachete referentieafbeelding. Daarnaast benutten we Self-Forcing Distribution Matching Distillation om causale, stroombare aanpassing van grootschalige modellen te vergemakkelijken zonder in te leveren op visuele kwaliteit. Live Avatar demonstreert state-of-the-art prestaties, bereikt 20 FPS end-to-end generatie op 5 H800 GPU's, en is voor zover wij weten de eerste die praktische, real-time, hoogwaardige avatargeneratie op deze schaal realiseert. Ons werk vestigt een nieuw paradigma voor de inzet van geavanceerde diffusiemodellen in industriële long-form videogeneratietoepassingen.
English
Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.