StableAvatar: Generación de Videos de Avatar Impulsados por Audio de Longitud Infinita
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
August 11, 2025
Autores: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumen
Los modelos de difusión actuales para la generación de videos de avatares impulsados por audio enfrentan dificultades para sintetizar videos largos con sincronización natural del audio y consistencia de identidad. Este artículo presenta StableAvatar, el primer transformador de difusión de video de extremo a extremo que sintetiza videos de alta calidad de longitud infinita sin postprocesamiento. Condicionado por una imagen de referencia y audio, StableAvatar integra módulos de entrenamiento e inferencia personalizados para permitir la generación de videos de longitud infinita. Observamos que la razón principal que impide a los modelos existentes generar videos largos radica en su modelado de audio. Estos suelen depender de extractores de terceros para obtener embeddings de audio, que luego se inyectan directamente en el modelo de difusión mediante atención cruzada. Dado que los backbones de difusión actuales carecen de conocimientos previos relacionados con el audio, este enfoque provoca una acumulación severa de errores en la distribución latente a lo largo de los clips de video, haciendo que la distribución latente de los segmentos subsiguientes se aleje gradualmente de la distribución óptima. Para abordar esto, StableAvatar introduce un nuevo Adaptador de Audio Consciente del Paso de Tiempo que previene la acumulación de errores mediante modulación consciente del paso de tiempo. Durante la inferencia, proponemos un Mecanismo de Guía Nativa de Audio para mejorar aún más la sincronización del audio, aprovechando la predicción conjunta audio-latente en evolución de la difusión como una señal de guía dinámica. Para mejorar la suavidad de los videos de longitud infinita, introducimos una Estrategia de Ventana Deslizante con Ponderación Dinámica que fusiona los latentes a lo largo del tiempo. Los experimentos en benchmarks muestran la efectividad de StableAvatar tanto cualitativa como cuantitativamente.
English
Current diffusion models for audio-driven avatar video generation struggle to
synthesize long videos with natural audio synchronization and identity
consistency. This paper presents StableAvatar, the first end-to-end video
diffusion transformer that synthesizes infinite-length high-quality videos
without post-processing. Conditioned on a reference image and audio,
StableAvatar integrates tailored training and inference modules to enable
infinite-length video generation. We observe that the main reason preventing
existing models from generating long videos lies in their audio modeling. They
typically rely on third-party off-the-shelf extractors to obtain audio
embeddings, which are then directly injected into the diffusion model via
cross-attention. Since current diffusion backbones lack any audio-related
priors, this approach causes severe latent distribution error accumulation
across video clips, leading the latent distribution of subsequent segments to
drift away from the optimal distribution gradually. To address this,
StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents
error accumulation via time-step-aware modulation. During inference, we propose
a novel Audio Native Guidance Mechanism to further enhance the audio
synchronization by leveraging the diffusion's own evolving joint audio-latent
prediction as a dynamic guidance signal. To enhance the smoothness of the
infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy
that fuses latent over time. Experiments on benchmarks show the effectiveness
of StableAvatar both qualitatively and quantitatively.