StableAvatar: Generazione di Video Avatar Guidati da Audio a Lunghezza Infinita
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
August 11, 2025
Autori: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Abstract
I modelli di diffusione attuali per la generazione di video di avatar guidati da audio incontrano difficoltà nel sintetizzare video lunghi con una sincronizzazione audio naturale e una consistenza dell'identità. Questo articolo presenta StableAvatar, il primo video diffusion transformer end-to-end che sintetizza video di alta qualità a lunghezza infinita senza post-elaborazione. Condizionato da un'immagine di riferimento e da un audio, StableAvatar integra moduli di addestramento e inferenza personalizzati per abilitare la generazione di video a lunghezza infinita. Osserviamo che la ragione principale che impedisce ai modelli esistenti di generare video lunghi risiede nella loro modellazione audio. Essi si affidano tipicamente a estrattori preesistenti di terze parti per ottenere embedding audio, che vengono poi iniettati direttamente nel modello di diffusione tramite cross-attention. Poiché le architetture di diffusione attuali non possiedono alcun priore relativo all'audio, questo approccio causa un accumulo severo di errori nella distribuzione latente tra i clip video, portando la distribuzione latente dei segmenti successivi a discostarsi gradualmente dalla distribuzione ottimale. Per affrontare questo problema, StableAvatar introduce un nuovo Time-step-aware Audio Adapter che previene l'accumulo di errori tramite una modulazione consapevole del time-step. Durante l'inferenza, proponiamo un nuovo Audio Native Guidance Mechanism per migliorare ulteriormente la sincronizzazione audio sfruttando la previsione congiunta audio-latente in evoluzione della diffusione come segnale di guida dinamico. Per migliorare la fluidità dei video a lunghezza infinita, introduciamo una Dynamic Weighted Sliding-window Strategy che fonde i latenti nel tempo. Gli esperimenti sui benchmark dimostrano l'efficacia di StableAvatar sia qualitativamente che quantitativamente.
English
Current diffusion models for audio-driven avatar video generation struggle to
synthesize long videos with natural audio synchronization and identity
consistency. This paper presents StableAvatar, the first end-to-end video
diffusion transformer that synthesizes infinite-length high-quality videos
without post-processing. Conditioned on a reference image and audio,
StableAvatar integrates tailored training and inference modules to enable
infinite-length video generation. We observe that the main reason preventing
existing models from generating long videos lies in their audio modeling. They
typically rely on third-party off-the-shelf extractors to obtain audio
embeddings, which are then directly injected into the diffusion model via
cross-attention. Since current diffusion backbones lack any audio-related
priors, this approach causes severe latent distribution error accumulation
across video clips, leading the latent distribution of subsequent segments to
drift away from the optimal distribution gradually. To address this,
StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents
error accumulation via time-step-aware modulation. During inference, we propose
a novel Audio Native Guidance Mechanism to further enhance the audio
synchronization by leveraging the diffusion's own evolving joint audio-latent
prediction as a dynamic guidance signal. To enhance the smoothness of the
infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy
that fuses latent over time. Experiments on benchmarks show the effectiveness
of StableAvatar both qualitatively and quantitatively.