StableAvatar : Génération de vidéos d'avatars pilotées par des séquences audio de longueur infinie

papers.abstract

Les modèles de diffusion actuels pour la génération de vidéos d'avatars pilotées par l'audio peinent à synthétiser des vidéos longues avec une synchronisation audio naturelle et une cohérence d'identité. Cet article présente StableAvatar, le premier transformeur de diffusion vidéo de bout en bout qui synthétise des vidéos de haute qualité de longueur infinie sans post-traitement. Conditionné par une image de référence et un audio, StableAvatar intègre des modules d'entraînement et d'inférence spécifiques pour permettre la génération de vidéos de longueur infinie. Nous observons que la principale raison empêchant les modèles existants de générer des vidéos longues réside dans leur modélisation audio. Ils s'appuient généralement sur des extracteurs tiers prêts à l'emploi pour obtenir des embeddings audio, qui sont ensuite injectés directement dans le modèle de diffusion via une attention croisée. Comme les architectures de diffusion actuelles ne possèdent aucun a priori lié à l'audio, cette approche entraîne une accumulation sévère d'erreurs de distribution latente entre les clips vidéo, conduisant la distribution latente des segments suivants à s'éloigner progressivement de la distribution optimale. Pour résoudre ce problème, StableAvatar introduit un nouvel Adaptateur Audio Conscient du Pas de Temps qui empêche l'accumulation d'erreurs via une modulation consciente du pas de temps. Pendant l'inférence, nous proposons un nouveau Mécanisme de Guidage Audio Natif pour améliorer davantage la synchronisation audio en exploitant la prédiction audio-latente évolutive de la diffusion elle-même comme signal de guidage dynamique. Pour améliorer la fluidité des vidéos de longueur infinie, nous introduisons une Stratégie de Fenêtre Glissante à Poids Dynamique qui fusionne les latents dans le temps. Les expériences sur des benchmarks montrent l'efficacité de StableAvatar à la fois qualitativement et quantitativement.

English

Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos with natural audio synchronization and identity consistency. This paper presents StableAvatar, the first end-to-end video diffusion transformer that synthesizes infinite-length high-quality videos without post-processing. Conditioned on a reference image and audio, StableAvatar integrates tailored training and inference modules to enable infinite-length video generation. We observe that the main reason preventing existing models from generating long videos lies in their audio modeling. They typically rely on third-party off-the-shelf extractors to obtain audio embeddings, which are then directly injected into the diffusion model via cross-attention. Since current diffusion backbones lack any audio-related priors, this approach causes severe latent distribution error accumulation across video clips, leading the latent distribution of subsequent segments to drift away from the optimal distribution gradually. To address this, StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents error accumulation via time-step-aware modulation. During inference, we propose a novel Audio Native Guidance Mechanism to further enhance the audio synchronization by leveraging the diffusion's own evolving joint audio-latent prediction as a dynamic guidance signal. To enhance the smoothness of the infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy that fuses latent over time. Experiments on benchmarks show the effectiveness of StableAvatar both qualitatively and quantitatively.

StableAvatar : Génération de vidéos d'avatars pilotées par des séquences audio de longueur infinie

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

papers.abstract

Support