StableAvatar: Generazione di Video Avatar Guidati da Audio a Lunghezza Infinita

Abstract

I modelli di diffusione attuali per la generazione di video di avatar guidati da audio incontrano difficoltà nel sintetizzare video lunghi con una sincronizzazione audio naturale e una consistenza dell'identità. Questo articolo presenta StableAvatar, il primo video diffusion transformer end-to-end che sintetizza video di alta qualità a lunghezza infinita senza post-elaborazione. Condizionato da un'immagine di riferimento e da un audio, StableAvatar integra moduli di addestramento e inferenza personalizzati per abilitare la generazione di video a lunghezza infinita. Osserviamo che la ragione principale che impedisce ai modelli esistenti di generare video lunghi risiede nella loro modellazione audio. Essi si affidano tipicamente a estrattori preesistenti di terze parti per ottenere embedding audio, che vengono poi iniettati direttamente nel modello di diffusione tramite cross-attention. Poiché le architetture di diffusione attuali non possiedono alcun priore relativo all'audio, questo approccio causa un accumulo severo di errori nella distribuzione latente tra i clip video, portando la distribuzione latente dei segmenti successivi a discostarsi gradualmente dalla distribuzione ottimale. Per affrontare questo problema, StableAvatar introduce un nuovo Time-step-aware Audio Adapter che previene l'accumulo di errori tramite una modulazione consapevole del time-step. Durante l'inferenza, proponiamo un nuovo Audio Native Guidance Mechanism per migliorare ulteriormente la sincronizzazione audio sfruttando la previsione congiunta audio-latente in evoluzione della diffusione come segnale di guida dinamico. Per migliorare la fluidità dei video a lunghezza infinita, introduciamo una Dynamic Weighted Sliding-window Strategy che fonde i latenti nel tempo. Gli esperimenti sui benchmark dimostrano l'efficacia di StableAvatar sia qualitativamente che quantitativamente.

English

Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos with natural audio synchronization and identity consistency. This paper presents StableAvatar, the first end-to-end video diffusion transformer that synthesizes infinite-length high-quality videos without post-processing. Conditioned on a reference image and audio, StableAvatar integrates tailored training and inference modules to enable infinite-length video generation. We observe that the main reason preventing existing models from generating long videos lies in their audio modeling. They typically rely on third-party off-the-shelf extractors to obtain audio embeddings, which are then directly injected into the diffusion model via cross-attention. Since current diffusion backbones lack any audio-related priors, this approach causes severe latent distribution error accumulation across video clips, leading the latent distribution of subsequent segments to drift away from the optimal distribution gradually. To address this, StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents error accumulation via time-step-aware modulation. During inference, we propose a novel Audio Native Guidance Mechanism to further enhance the audio synchronization by leveraging the diffusion's own evolving joint audio-latent prediction as a dynamic guidance signal. To enhance the smoothness of the infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy that fuses latent over time. Experiments on benchmarks show the effectiveness of StableAvatar both qualitatively and quantitatively.

StableAvatar: Generazione di Video Avatar Guidati da Audio a Lunghezza Infinita

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

Abstract

Support