StableAvatar: Generierung von Avatar-Videos mit unbegrenzter Länge durch Audio-Input
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
August 11, 2025
papers.authors: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
cs.AI
papers.abstract
Aktuelle Diffusionsmodelle für die audio-gesteuerte Avatar-Videogenerierung haben Schwierigkeiten, lange Videos mit natürlicher Audio-Synchronisation und Identitätskonsistenz zu synthetisieren. Dieses Paper stellt StableAvatar vor, den ersten end-to-end Video-Diffusion-Transformer, der unendlich lange hochwertige Videos ohne Nachbearbeitung synthetisiert. Basierend auf einem Referenzbild und Audio integriert StableAvatar maßgeschneiderte Trainings- und Inferenzmodule, um die Generierung von unendlich langen Videos zu ermöglichen. Wir beobachten, dass der Hauptgrund, der bestehende Modelle daran hindert, lange Videos zu generieren, in ihrer Audiomodellierung liegt. Sie verlassen sich typischerweise auf Drittanbieter-Extraktoren, um Audio-Embeddings zu erhalten, die dann direkt über Cross-Attention in das Diffusionsmodell injiziert werden. Da aktuelle Diffusions-Backbones keine audio-bezogenen Prioritäten besitzen, führt dieser Ansatz zu einer schwerwiegenden Akkumulation von latenten Verteilungsfehlern über Videoclips hinweg, wodurch die latente Verteilung nachfolgender Segmente allmählich von der optimalen Verteilung abweicht. Um dies zu beheben, führt StableAvatar einen neuartigen Time-step-aware Audio Adapter ein, der die Fehlerakkumulation durch zeitstufenbewusste Modulation verhindert. Während der Inferenz schlagen wir einen neuartigen Audio Native Guidance Mechanism vor, der die Audio-Synchronisation weiter verbessert, indem die sich entwickelnde gemeinsame Audio-Latent-Vorhersage der Diffusion als dynamisches Führungssignal genutzt wird. Um die Glätte der unendlich langen Videos zu verbessern, führen wir eine Dynamic Weighted Sliding-window Strategy ein, die latente Zustände über die Zeit hinweg fusioniert. Experimente auf Benchmarks zeigen die Wirksamkeit von StableAvatar sowohl qualitativ als auch quantitativ.
English
Current diffusion models for audio-driven avatar video generation struggle to
synthesize long videos with natural audio synchronization and identity
consistency. This paper presents StableAvatar, the first end-to-end video
diffusion transformer that synthesizes infinite-length high-quality videos
without post-processing. Conditioned on a reference image and audio,
StableAvatar integrates tailored training and inference modules to enable
infinite-length video generation. We observe that the main reason preventing
existing models from generating long videos lies in their audio modeling. They
typically rely on third-party off-the-shelf extractors to obtain audio
embeddings, which are then directly injected into the diffusion model via
cross-attention. Since current diffusion backbones lack any audio-related
priors, this approach causes severe latent distribution error accumulation
across video clips, leading the latent distribution of subsequent segments to
drift away from the optimal distribution gradually. To address this,
StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents
error accumulation via time-step-aware modulation. During inference, we propose
a novel Audio Native Guidance Mechanism to further enhance the audio
synchronization by leveraging the diffusion's own evolving joint audio-latent
prediction as a dynamic guidance signal. To enhance the smoothness of the
infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy
that fuses latent over time. Experiments on benchmarks show the effectiveness
of StableAvatar both qualitatively and quantitatively.