ChatPaper.aiChatPaper

UniAVGen : Génération unifiée audio et vidéo avec des interactions asymétriques intermodales

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

November 5, 2025
papers.authors: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI

papers.abstract

En raison de l'absence de modélisation croisée intermodale efficace, les méthodes open-source existantes de génération audio-vidéo présentent souvent une synchronisation labiale dégradée et une cohérence sémantique insuffisante. Pour pallier ces limitations, nous proposons UniAVGen, un cadre unifié pour la génération conjointe audio et vidéo. UniAVGen s'articule autour d'une architecture de synthèse conjointe à double branche, intégrant deux Transformers à Diffusion (DiT) parallèles pour construire un espace latent intermodal cohésif. Son cœur repose sur un mécanisme d'Interaction Intermodale Asymétrique, qui permet une attention croisée bidirectionnelle et temporellement alignée, garantissant ainsi une synchronisation spatiotemporelle précise et une cohérence sémantique. De plus, cette interaction intermodale est renforcée par un module de Modulation Sensible au Visage, qui hiérarchise dynamiquement les régions saillantes lors du processus d'interaction. Pour améliorer la fidélité générative lors de l'inférence, nous introduisons également un Guidage Classifieur-Libre Sensible aux Modalités, une nouvelle stratégie qui amplifie explicitement les signaux de corrélation intermodale. Il est à noter que la conception robuste de synthèse conjointe d'UniAVGen permet l'unification transparente de tâches audio-vidéo pivots au sein d'un modèle unique, telles que la génération et la continuation conjointes audio-vidéo, le doublage vidéo-vers-audio, et la synthèse vidéo pilotée par l'audio. Des expériences exhaustives valident que, avec beaucoup moins d'échantillons d'entraînement (1,3M contre 30,1M), UniAVGen offre des avantages globaux en matière de synchronisation audio-vidéo, de cohérence du timbre et de cohérence émotionnelle.
English
Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.
PDF515December 1, 2025