ChatPaper.aiChatPaper

UniAVGen: 비대칭적 교차 모달 상호작용을 통한 통합 오디오 및 비디오 생성

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

November 5, 2025
저자: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI

초록

효과적인 교차 모달리티 모델링의 부재로 인해, 기존 오픈소스 오디오-비디오 생성 방법들은 흔히 저하된 입술 동기화와 불충분한 의미론적 일관성을 보인다. 이러한 단점을 완화하기 위해, 우리는 통합된 오디오 및 비디오 공동 생성을 위한 통합 프레임워크인 UniAVGen을 제안한다. UniAVGen은 결합된 교차 모달리티 잠재 공간을 구축하기 위해 두 개의 병렬 Diffusion Transformer(DiT)를 통합한 이중 분기 공동 합성 아키텍처를 기반으로 한다. 그 핵심에는 비대칭 교차 모달리티 상호작용 메커니즘이 자리하며, 이는 양방향의 시간적으로 정렬된 교차 주의를 가능하게 하여 정확한 시공간적 동기화와 의미론적 일관성을 보장한다. 더 나아가, 이 교차 모달리티 상호작용은 Face-Aware Modulation 모듈에 의해 강화되어, 상호작용 과정에서 두드러진 영역을 동적으로 우선시한다. 추론 과정에서 생성 충실도를 높이기 위해, 우리는 추가적으로 교차 모달리티 상관 관계 신호를 명시적으로 증폭하는 새로운 전략인 Modality-Aware Classifier-Free Guidance를 도입한다. 주목할 점은, UniAVGen의 강력한 공동 합성 설계가 단일 모델 내에서 공동 오디오-비디오 생성 및 연속 생성, 비디오-오디오 더빙, 오디오 기반 비디오 합성과 같은 핵심 오디오-비디오 작업들을 원활하게 통합할 수 있게 한다는 것이다. 포괄적인 실험을 통해 훨씬 더 적은 훈련 샘플(1.3M vs. 30.1M)로도 UniAVGen이 오디오-비디오 동기화, 음색 일관성, 감정 일관성 측면에서 전반적인 우위를 보임을 검증하였다.
English
Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.
PDF515December 1, 2025