StableAvatar : Génération de vidéos d'avatars pilotées par des séquences audio de longueur infinie
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
August 11, 2025
papers.authors: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
cs.AI
papers.abstract
Les modèles de diffusion actuels pour la génération de vidéos d'avatars pilotées par l'audio peinent à synthétiser des vidéos longues avec une synchronisation audio naturelle et une cohérence d'identité. Cet article présente StableAvatar, le premier transformeur de diffusion vidéo de bout en bout qui synthétise des vidéos de haute qualité de longueur infinie sans post-traitement. Conditionné par une image de référence et un audio, StableAvatar intègre des modules d'entraînement et d'inférence spécifiques pour permettre la génération de vidéos de longueur infinie. Nous observons que la principale raison empêchant les modèles existants de générer des vidéos longues réside dans leur modélisation audio. Ils s'appuient généralement sur des extracteurs tiers prêts à l'emploi pour obtenir des embeddings audio, qui sont ensuite injectés directement dans le modèle de diffusion via une attention croisée. Comme les architectures de diffusion actuelles ne possèdent aucun a priori lié à l'audio, cette approche entraîne une accumulation sévère d'erreurs de distribution latente entre les clips vidéo, conduisant la distribution latente des segments suivants à s'éloigner progressivement de la distribution optimale. Pour résoudre ce problème, StableAvatar introduit un nouvel Adaptateur Audio Conscient du Pas de Temps qui empêche l'accumulation d'erreurs via une modulation consciente du pas de temps. Pendant l'inférence, nous proposons un nouveau Mécanisme de Guidage Audio Natif pour améliorer davantage la synchronisation audio en exploitant la prédiction audio-latente évolutive de la diffusion elle-même comme signal de guidage dynamique. Pour améliorer la fluidité des vidéos de longueur infinie, nous introduisons une Stratégie de Fenêtre Glissante à Poids Dynamique qui fusionne les latents dans le temps. Les expériences sur des benchmarks montrent l'efficacité de StableAvatar à la fois qualitativement et quantitativement.
English
Current diffusion models for audio-driven avatar video generation struggle to
synthesize long videos with natural audio synchronization and identity
consistency. This paper presents StableAvatar, the first end-to-end video
diffusion transformer that synthesizes infinite-length high-quality videos
without post-processing. Conditioned on a reference image and audio,
StableAvatar integrates tailored training and inference modules to enable
infinite-length video generation. We observe that the main reason preventing
existing models from generating long videos lies in their audio modeling. They
typically rely on third-party off-the-shelf extractors to obtain audio
embeddings, which are then directly injected into the diffusion model via
cross-attention. Since current diffusion backbones lack any audio-related
priors, this approach causes severe latent distribution error accumulation
across video clips, leading the latent distribution of subsequent segments to
drift away from the optimal distribution gradually. To address this,
StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents
error accumulation via time-step-aware modulation. During inference, we propose
a novel Audio Native Guidance Mechanism to further enhance the audio
synchronization by leveraging the diffusion's own evolving joint audio-latent
prediction as a dynamic guidance signal. To enhance the smoothness of the
infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy
that fuses latent over time. Experiments on benchmarks show the effectiveness
of StableAvatar both qualitatively and quantitatively.