StableAvatar: Geração de Vídeos de Avatar Dirigidos por Áudio de Comprimento Infinito
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
August 11, 2025
Autores: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
Os modelos de difusão atuais para geração de vídeos de avatares impulsionados por áudio enfrentam dificuldades em sintetizar vídeos longos com sincronização natural de áudio e consistência de identidade. Este artigo apresenta o StableAvatar, o primeiro transformer de difusão de vídeo end-to-end que sintetiza vídeos de alta qualidade de comprimento infinito sem pós-processamento. Condicionado por uma imagem de referência e áudio, o StableAvatar integra módulos de treinamento e inferência personalizados para permitir a geração de vídeos de comprimento infinito. Observamos que a principal razão que impede os modelos existentes de gerar vídeos longos reside na sua modelagem de áudio. Eles geralmente dependem de extratores de terceiros prontos para uso para obter embeddings de áudio, que são então injetados diretamente no modelo de difusão via atenção cruzada. Como os backbones de difusão atuais não possuem quaisquer conhecimentos prévios relacionados a áudio, essa abordagem causa um acúmulo severo de erros na distribuição latente entre clipes de vídeo, fazendo com que a distribuição latente dos segmentos subsequentes se afaste gradualmente da distribuição ótima. Para resolver isso, o StableAvatar introduz um novo Adaptador de Áudio Consciente do Passo de Tempo que previne o acúmulo de erros via modulação consciente do passo de tempo. Durante a inferência, propomos um novo Mecanismo de Orientação Nativa de Áudio para aprimorar ainda mais a sincronização de áudio, aproveitando a previsão conjunta de áudio-latente em evolução da própria difusão como um sinal de orientação dinâmico. Para aumentar a suavidade dos vídeos de comprimento infinito, introduzimos uma Estratégia de Janela Deslizante com Peso Dinâmico que funde os latentes ao longo do tempo. Experimentos em benchmarks mostram a eficácia do StableAvatar tanto qualitativa quanto quantitativamente.
English
Current diffusion models for audio-driven avatar video generation struggle to
synthesize long videos with natural audio synchronization and identity
consistency. This paper presents StableAvatar, the first end-to-end video
diffusion transformer that synthesizes infinite-length high-quality videos
without post-processing. Conditioned on a reference image and audio,
StableAvatar integrates tailored training and inference modules to enable
infinite-length video generation. We observe that the main reason preventing
existing models from generating long videos lies in their audio modeling. They
typically rely on third-party off-the-shelf extractors to obtain audio
embeddings, which are then directly injected into the diffusion model via
cross-attention. Since current diffusion backbones lack any audio-related
priors, this approach causes severe latent distribution error accumulation
across video clips, leading the latent distribution of subsequent segments to
drift away from the optimal distribution gradually. To address this,
StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents
error accumulation via time-step-aware modulation. During inference, we propose
a novel Audio Native Guidance Mechanism to further enhance the audio
synchronization by leveraging the diffusion's own evolving joint audio-latent
prediction as a dynamic guidance signal. To enhance the smoothness of the
infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy
that fuses latent over time. Experiments on benchmarks show the effectiveness
of StableAvatar both qualitatively and quantitatively.