ChatPaper.aiChatPaper

조화: 교차 과제 시너지를 통한 오디오 및 비디오 생성의 조화

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

November 26, 2025
저자: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

초록

동기화된 오디오-비주얼 콘텐츠 합성은 생성 AI의 핵심 과제로, 오픈소스 모델들은 강건한 오디오-비디오 정합 문제에 직면해 있습니다. 우리의 분석에 따르면, 이 문제는 공동 디퓨전 과정의 세 가지 근본적인 한계에 기인합니다: (1) 동시에 진화하는 잡음 잠재 공간이 안정적인 정합 학습을 방해하는 대응 관계 드리프트, (2) 세밀한 시간적 단서를 포착하지 못하는 비효율적인 글로벌 어텐션 메커니즘, (3) 조건부 생성을 강화하지만 교차 모달 동기화는 향상시키지 않는 기존 Classifier-Free Guidance(CFG)의 모달 내 편향. 이러한 한계를 극복하기 위해 우리는 기계적으로 오디오-비주얼 동기화를 강제하는 새로운 프레임워크인 Harmony를 제안합니다. 먼저, 오디오 기반 비디오 생성과 비디오 기반 오디오 생성 과제에서 강력한 감독 신호를 활용하여 드리프트를 완화하는 Cross-Task Synergy 훈련 패러다임을 제안합니다. 다음으로, 효율적이고 정밀한 시간적-스타일 정합을 위한 Global-Local Decoupled Interaction Module을 설계합니다. 마지막으로, 추론 과정에서 정합 신호를 명시적으로 분리 및 증폭하는 새로운 Synchronization-Enhanced CFG(SyncCFG)를 제시합니다. 폭넓은 실험을 통해 Harmony가 생성 충실도와 특히 세밀한 오디오-비주얼 동기화 달성에 있어 기존 방법들을 크게 능가하는 새로운 최첨단 성능을确立함을 입증합니다.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.
PDF203December 1, 2025