ChatPaper.aiChatPaper

Avatar Live: Generazione di Avatar in Streaming Guidata da Audio in Tempo Reale con Durata Infinita

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

December 4, 2025
Autori: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi
cs.AI

Abstract

I metodi esistenti per la generazione di video basati su modelli di diffusione sono fondamentalmente limitati dal calcolo sequenziale e dall'incoerenza su lunghi orizzonti, il che ne ostacola l'adozione pratica nella sintesi di avatar guidata da audio in tempo reale e in streaming. Presentiamo Live Avatar, un framework co-progettato a livello di algoritmo e sistema che abilita una generazione di avatar efficiente, ad alta fedeltà e di lunghezza infinita utilizzando un modello di diffusione da 14 miliardi di parametri. Il nostro approccio introduce il Timestep-forcing Pipeline Parallelism (TPP), un paradigma di inferenza distribuita che organizza in pipeline i passi di denoising su più GPU, superando efficacemente il collo di bottiglia autoregressivo e garantendo uno streaming in tempo reale stabile e a bassa latenza. Per migliorare ulteriormente la coerenza temporale e mitigare la deriva dell'identità e gli artefatti cromatici, proponiamo il Rolling Sink Frame Mechanism (RSFM), che mantiene la fedeltà della sequenza ricalibrando dinamicamente l'aspetto utilizzando un'immagine di riferimento memorizzata nella cache. Inoltre, sfruttiamo il Self-Forcing Distribution Matching Distillation per facilitare l'adattamento causale e streamable di modelli su larga scala senza sacrificare la qualità visiva. Live Avatar dimostra prestazioni all'avanguardia, raggiungendo una generazione end-to-end a 20 FPS su 5 GPU H800 e, per quanto a nostra conoscenza, è il primo a raggiungere una generazione di avatar pratica, in tempo reale e ad alta fedeltà su questa scala. Il nostro lavoro stabilisce un nuovo paradigma per la distribuzione di modelli di diffusione avanzati in applicazioni industriali di sintesi video di lunga durata.
English
Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.
PDF1686December 21, 2025