ChatPaper.aiChatPaper

ハーモニー:クロスタスク・シナジーによる音声と映像生成の調和

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

November 26, 2025
著者: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

要旨

同期した音声-視覚コンテンツの合成は、生成AIにおける重要な課題であり、オープンソースモデルは頑健な音声-視覚連携の実現に困難を抱えている。我々の分析によれば、この問題は結合拡散過程における三つの根本的課題に起因する:(1) 対応関係のドリフト - 並行して進化するノイジーレイテントが安定した連携学習を妨げる;(2) 細粒度の時間的手がかりを捕捉できない非効率な大域注意機構;(3) 従来のClassifier-Free Guidance (CFG)のモダリティ内バイアス - 条件付けを強化するが、モダリティ間の同期性は向上しない。これらの課題を克服するため、我々は音声-視覚同期を機構的に強化する新規フレームワーク「Harmony」を提案する。まず、音声駆動型映像生成と映像駆動型音声生成タスクからの強力な教師信号を活用してドリフトを軽減するCross-Task Synergy訓練パラダイムを考案。次に、効率的かつ精密な時間的・様式的連携を実現するGlobal-Local Decoupled Interaction Moduleを設計。最後に、推論時に同期信号を明示的に分離・増幅する新規のSynchronization-Enhanced CFG (SyncCFG)を提示する。大規模な実験により、Harmonyが新たなstate-of-the-artを確立し、既存手法を生成品質において、そして特に細粒度の音声-視覚同期性において大幅に凌駕することを実証した。
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.
PDF203December 1, 2025