StableAvatar: Generación de Videos de Avatar Impulsados por Audio de Longitud Infinita

Resumen

Los modelos de difusión actuales para la generación de videos de avatares impulsados por audio enfrentan dificultades para sintetizar videos largos con sincronización natural del audio y consistencia de identidad. Este artículo presenta StableAvatar, el primer transformador de difusión de video de extremo a extremo que sintetiza videos de alta calidad de longitud infinita sin postprocesamiento. Condicionado por una imagen de referencia y audio, StableAvatar integra módulos de entrenamiento e inferencia personalizados para permitir la generación de videos de longitud infinita. Observamos que la razón principal que impide a los modelos existentes generar videos largos radica en su modelado de audio. Estos suelen depender de extractores de terceros para obtener embeddings de audio, que luego se inyectan directamente en el modelo de difusión mediante atención cruzada. Dado que los backbones de difusión actuales carecen de conocimientos previos relacionados con el audio, este enfoque provoca una acumulación severa de errores en la distribución latente a lo largo de los clips de video, haciendo que la distribución latente de los segmentos subsiguientes se aleje gradualmente de la distribución óptima. Para abordar esto, StableAvatar introduce un nuevo Adaptador de Audio Consciente del Paso de Tiempo que previene la acumulación de errores mediante modulación consciente del paso de tiempo. Durante la inferencia, proponemos un Mecanismo de Guía Nativa de Audio para mejorar aún más la sincronización del audio, aprovechando la predicción conjunta audio-latente en evolución de la difusión como una señal de guía dinámica. Para mejorar la suavidad de los videos de longitud infinita, introducimos una Estrategia de Ventana Deslizante con Ponderación Dinámica que fusiona los latentes a lo largo del tiempo. Los experimentos en benchmarks muestran la efectividad de StableAvatar tanto cualitativa como cuantitativamente.

English

Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos with natural audio synchronization and identity consistency. This paper presents StableAvatar, the first end-to-end video diffusion transformer that synthesizes infinite-length high-quality videos without post-processing. Conditioned on a reference image and audio, StableAvatar integrates tailored training and inference modules to enable infinite-length video generation. We observe that the main reason preventing existing models from generating long videos lies in their audio modeling. They typically rely on third-party off-the-shelf extractors to obtain audio embeddings, which are then directly injected into the diffusion model via cross-attention. Since current diffusion backbones lack any audio-related priors, this approach causes severe latent distribution error accumulation across video clips, leading the latent distribution of subsequent segments to drift away from the optimal distribution gradually. To address this, StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents error accumulation via time-step-aware modulation. During inference, we propose a novel Audio Native Guidance Mechanism to further enhance the audio synchronization by leveraging the diffusion's own evolving joint audio-latent prediction as a dynamic guidance signal. To enhance the smoothness of the infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy that fuses latent over time. Experiments on benchmarks show the effectiveness of StableAvatar both qualitatively and quantitatively.

StableAvatar: Generación de Videos de Avatar Impulsados por Audio de Longitud Infinita

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

Resumen

Support