StableAvatar: Generatie van Avatarvideo's met Onbeperkte Lengte via Audiogestuurde Technologie
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
August 11, 2025
Auteurs: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Huidige diffusiemodellen voor audio-gestuurde avatarvideogeneratie hebben moeite met het synthetiseren van lange video's met natuurlijke audiosynchronisatie en identiteitsconsistentie. Dit artikel introduceert StableAvatar, de eerste end-to-end videodiffusie-transformer die oneindig lange hoogwaardige video's synthetiseert zonder nabewerking. Geconditioneerd op een referentieafbeelding en audio, integreert StableAvatar op maat gemaakte trainings- en inferentiemodules om oneindig lange videogeneratie mogelijk te maken. We observeren dat de belangrijkste reden waarom bestaande modellen geen lange video's kunnen genereren, ligt in hun audiomodellering. Ze vertrouwen doorgaans op externe extractors om audio-embeddings te verkrijgen, die vervolgens direct in het diffusiemodel worden geïnjecteerd via cross-attention. Omdat huidige diffusie-backbones geen audio-gerelateerde priors bevatten, veroorzaakt deze aanpak een ernstige accumulatie van latente distributiefouten over videoclips, waardoor de latente distributie van opeenvolgende segmenten geleidelijk afdrijft van de optimale distributie. Om dit aan te pakken, introduceert StableAvatar een nieuwe Time-step-aware Audio Adapter die foutaccumulatie voorkomt via time-step-aware modulatie. Tijdens inferentie stellen we een nieuw Audio Native Guidance Mechanism voor om de audiosynchronisatie verder te verbeteren door gebruik te maken van de eigen evoluerende gezamenlijke audio-latente voorspelling van de diffusie als een dynamisch begeleidingssignaal. Om de vloeiendheid van de oneindig lange video's te verbeteren, introduceren we een Dynamic Weighted Sliding-window Strategy die latenten over tijd fuseert. Experimenten op benchmarks tonen de effectiviteit van StableAvatar zowel kwalitatief als kwantitatief aan.
English
Current diffusion models for audio-driven avatar video generation struggle to
synthesize long videos with natural audio synchronization and identity
consistency. This paper presents StableAvatar, the first end-to-end video
diffusion transformer that synthesizes infinite-length high-quality videos
without post-processing. Conditioned on a reference image and audio,
StableAvatar integrates tailored training and inference modules to enable
infinite-length video generation. We observe that the main reason preventing
existing models from generating long videos lies in their audio modeling. They
typically rely on third-party off-the-shelf extractors to obtain audio
embeddings, which are then directly injected into the diffusion model via
cross-attention. Since current diffusion backbones lack any audio-related
priors, this approach causes severe latent distribution error accumulation
across video clips, leading the latent distribution of subsequent segments to
drift away from the optimal distribution gradually. To address this,
StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents
error accumulation via time-step-aware modulation. During inference, we propose
a novel Audio Native Guidance Mechanism to further enhance the audio
synchronization by leveraging the diffusion's own evolving joint audio-latent
prediction as a dynamic guidance signal. To enhance the smoothness of the
infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy
that fuses latent over time. Experiments on benchmarks show the effectiveness
of StableAvatar both qualitatively and quantitatively.