UniAVGen: 非対称的クロスモーダル相互作用による統合的音声・映像生成
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
November 5, 2025
著者: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI
要旨
効果的なクロスモーダルモデリングの欠如により、既存のオープンソースの音声-映像生成手法は、しばしば不十分な唇の同期性と意味的一貫性の低下を示す。これらの欠点を緩和するため、我々は音声と映像の統合生成のための統一フレームワークであるUniAVGenを提案する。UniAVGenは、二つの並列Diffusion Transformer(DiT)を組み込んだデュアルブランチ統合合成アーキテクチャを基盤とし、結束力のあるクロスモーダル潜在空間を構築する。その中核には、双方向的で時間的に整合したクロスアテンションを可能にする非対称クロスモーダル相互作用機構があり、これにより精密な時空間的同期と意味的一貫性が保証される。さらに、このクロスモーダル相互作用は、相互作用プロセスにおける顕著な領域を動的に優先化する顔認識モジュレーションモジュールによって拡張されている。推論時の生成忠実度を高めるため、我々はさらに、クロスモーダル相関信号を明示的に増幅する新規戦略であるモダリティ認識Classifier-Free Guidanceを導入する。特筆すべきは、UniAVGenの堅牢な統合合成設計により、音声-映像統合生成と継続、映像から音声への吹き替え、音声駆動映像合成といった重要な音声-映像タスクを単一モデル内でシームレスに統一可能である点である。包括的実験により、はるかに少ない訓練サンプル数(1.3M対30.1M)で、UniAVGenが音声-映像同期性、音色一貫性、感情一貫性において全体的な優位性を発揮することが実証された。
English
Due to the lack of effective cross-modal modeling, existing open-source
audio-video generation methods often exhibit compromised lip synchronization
and insufficient semantic consistency. To mitigate these drawbacks, we propose
UniAVGen, a unified framework for joint audio and video generation. UniAVGen is
anchored in a dual-branch joint synthesis architecture, incorporating two
parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent
space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which
enables bidirectional, temporally aligned cross-attention, thus ensuring
precise spatiotemporal synchronization and semantic consistency. Furthermore,
this cross-modal interaction is augmented by a Face-Aware Modulation module,
which dynamically prioritizes salient regions in the interaction process. To
enhance generative fidelity during inference, we additionally introduce
Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly
amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint
synthesis design enables seamless unification of pivotal audio-video tasks
within a single model, such as joint audio-video generation and continuation,
video-to-audio dubbing, and audio-driven video synthesis. Comprehensive
experiments validate that, with far fewer training samples (1.3M vs. 30.1M),
UniAVGen delivers overall advantages in audio-video synchronization, timbre
consistency, and emotion consistency.