ChatPaper.aiChatPaper

UniAVGen: Generazione Unificata di Audio e Video con Interazioni Cross-Modali Asimmetriche

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

November 5, 2025
Autori: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI

Abstract

A causa della mancanza di una modellizzazione cross-modale efficace, i metodi open-source esistenti per la generazione audio-video presentano spesso una sincronizzazione labiale compromessa e un'insufficiente coerenza semantica. Per mitigare questi limiti, proponiamo UniAVGen, un framework unificato per la generazione congiunta di audio e video. UniAVGen si basa su un'architettura di sintesi congiunta a doppio ramo, che incorpora due Diffusion Transformer (DiT) paralleli per costruire uno spazio latente cross-modale coeso. Il suo cuore risiede in un meccanismo di Interazione Cross-Modale Asimmetrica, che abilita un cross-attention bidirezionale e temporalmente allineato, garantendo così una precisa sincronizzazione spazio-temporale e coerenza semantica. Inoltre, questa interazione cross-modale è potenziata da un modulo di Modulazione Consapevole del Volto (Face-Aware Modulation), che priorizza dinamicamente le regioni salienti durante il processo di interazione. Per migliorare la fedeltà generativa durante l'inferenza, introduciamo inoltre una Guida Classifier-Free Consapevole della Modalità (Modality-Aware Classifier-Free Guidance), una strategia innovativa che amplifica esplicitamente i segnali di correlazione cross-modale. È da notare che il robusto design di sintesi congiunta di UniAVGen permette l'unificazione senza soluzione di continuità di compiti audio-video fondamentali all'interno di un unico modello, come la generazione e continuazione congiunta audio-video, il doppiaggio video-to-audio e la sintesi video guidata da audio. Esperimenti completi convalidano che, con un numero di campioni di addestramento di gran lunga inferiore (1.3M vs. 30.1M), UniAVGen offre vantaggi complessivi nella sincronizzazione audio-video, nella coerenza timbrica e nella coerenza emotiva.
English
Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.
PDF515December 1, 2025