ChatPaper.aiChatPaper

UniAVGen: Geünificeerde Audio- en Videogeneratie met Asymmetrische Cross-Modale Interacties

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

November 5, 2025
Auteurs: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI

Samenvatting

Door het ontbreken van effectieve cross-modale modellering vertonen bestaande open-source audio-videogeneratiemethoden vaak gebrekkige lipsynchronisatie en onvoldoende semantische consistentie. Om deze tekortkomingen te verhelpen, stellen we UniAVGen voor, een uniform kader voor gezamenlijke audio- en videogeneratie. UniAVGen is verankerd in een dual-branch gezamenlijke synthese-architectuur, waarin twee parallelle Diffusion Transformers (DiTs) zijn geïntegreerd om een coherente cross-modale latente ruimte op te bouwen. De kern wordt gevormd door een Asymmetrisch Cross-Modaal Interactiemechanisme, dat bidirectionele, temporeel uitgelijnde cross-attentie mogelijk maakt, waardoor precieze spatiotemporele synchronisatie en semantische consistentie worden gegarandeerd. Versterkt wordt deze cross-modale interactie door een Face-Aware Modulatiemodule, die dynamisch prioriteit geeft aan salientiegebieden tijdens het interactieproces. Om de generatieve kwaliteit tijdens inferentie te verbeteren, introduceren we bovendien Modality-Aware Classifier-Free Guidance, een nieuwe strategie die cross-modale correlatiesignalen expliciet versterkt. Opmerkelijk is dat UniAVGen's robuuste gezamenlijke synthese-ontwerp naadloze unificatie van cruciale audio-videotaken binnen één enkel model mogelijk maakt, zoals gezamenlijke audio-videogeneratie en -voortzetting, video-naar-audio-nasynchronisatie en audio-gestuurde videosynthese. Uitgebreide experimenten valideren dat UniAVGen, met aanzienlijk minder trainingsvoorbeelden (1,3M vs. 30,1M), algemene voordelen biedt op het gebied van audio-videosynchronisatie, timbreconsistentie en emotieconsistentie.
English
Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.
PDF515December 1, 2025