UniAVGen: Vereinheitlichte Audio- und Videogenerierung mit asymmetrischen cross-modalen Interaktionen

papers.abstract

Aufgrund mangelnder effektiver cross-modaler Modellierung weisen bestehende Open-Source-Audio-Video-Generierungsmethoden häufig beeinträchtigte Lippensynchronisation und unzureichende semantische Konsistenz auf. Um diese Nachteile zu mildern, schlagen wir UniAVGen vor, einen vereinheitlichten Rahmen für die gemeinsame Audio- und Videogenerierung. UniAVGen basiert auf einer Dual-Branch-Joint-Synthesis-Architektur, die zwei parallele Diffusion Transformer (DiTs) integriert, um einen kohäsiven cross-modalen latenten Raum aufzubauen. Im Kern liegt ein asymmetrischer cross-modaler Interaktionsmechanismus, der bidirektionale, zeitlich ausgerichtete Cross-Attention ermöglicht und so präzise raumzeitliche Synchronisation und semantische Konsistenz gewährleistet. Darüber hinaus wird diese cross-modale Interaktion durch ein Face-Aware-Modulation-Modul erweitert, das dynamisch salienten Regionen im Interaktionsprozess Priorität einräumt. Um die generative Qualität während der Inferenz zu steigern, führen wir zusätzlich Modality-Aware Classifier-Free Guidance ein, eine neuartige Strategie, die cross-modale Korrelationssignale explizit verstärkt. Bemerkenswerterweise ermöglicht UniAVGens robustes Joint-Synthesis-Design die nahtlose Vereinheitlichung zentraler Audio-Video-Aufgaben innerhalb eines einzelnen Modells, wie gemeinsame Audio-Video-Generierung und -Fortsetzung, Video-to-Audio-Synchronisation und audiogesteuerte Videosynthese. Umfassende Experimente bestätigen, dass UniAVGen mit deutlich weniger Trainingsdaten (1,3 Mio. vs. 30,1 Mio.) insgesamt Vorteile in Bezug auf Audio-Video-Synchronisation, Klangfarbenkonsistenz und Emotionskonsistenz bietet.

English

Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.

UniAVGen: Vereinheitlichte Audio- und Videogenerierung mit asymmetrischen cross-modalen Interaktionen

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

papers.abstract

Support