Avatar Vivo: Geração de Avatares em Tempo Real com Transmissão de Áudio e Duração Infinita

Resumo

Os métodos existentes de geração de vídeo baseados em difusão são fundamentalmente limitados pela computação sequencial e pela inconsistência de longo horizonte, restringindo sua adoção prática em síntese de avatares acionada por áudio em tempo real e streaming. Apresentamos o Live Avatar, uma estrutura co-projetada de algoritmo e sistema que permite a geração eficiente, de alta fidelidade e de comprimento infinito de avatares usando um modelo de difusão com 14 bilhões de parâmetros. Nossa abordagem introduz o Paralelismo de Pipeline com Forçamento de Timestep (TPP), um paradigma de inferência distribuída que organiza em pipeline as etapas de remoção de ruído em múltiplas GPUs, quebrando efetivamente o gargalo autoregressivo e garantindo streaming estável e de baixa latência em tempo real. Para melhorar ainda mais a consistência temporal e mitigar o desvio de identidade e artefatos de cor, propomos o Mecanismo de Quadro de Referência Dinâmico (RSFM), que mantém a fidelidade da sequência ao recalibrar dinamicamente a aparência usando uma imagem de referência em cache. Adicionalmente, aproveitamos a Destilação por Correspondência de Distribuição com Auto-forçamento para facilitar a adaptação causal e transmitível de modelos em larga escala sem sacrificar a qualidade visual. O Live Avatar demonstra desempenho de ponta, atingindo geração de 20 FPS de ponta a ponta em 5 GPUs H800 e, até onde sabemos, é o primeiro a alcançar a geração prática, em tempo real e de alta fidelidade de avatares nessa escala. Nosso trabalho estabelece um novo paradigma para implantar modelos avançados de difusão em aplicações industriais de síntese de vídeo de longa duração.

English

Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.

Avatar Vivo: Geração de Avatares em Tempo Real com Transmissão de Áudio e Duração Infinita

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

Resumo

Support