Harmonie: Het Harmoniseren van Audio- en Videogeneratie door Synergie tussen Taken
Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
November 26, 2025
Auteurs: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Samenvatting
De synthese van gesynchroniseerde audiovisuele content is een centrale uitdaging in generatieve AI, waarbij open-source-modellen moeite hebben met robuuste audio-video-alignment. Onze analyse toont aan dat dit probleem geworteld is in drie fundamentele uitdagingen van het gezamenlijke diffusieproces: (1) Correspondence Drift, waarbij gelijktijdig evoluerende ruisige latenties een stabiel leren van alignment belemmeren; (2) inefficiënte globale aandachtmechanismen die geen fijngranulaire temporele signalen vastleggen; en (3) de intramodale bias van conventionele Classifier-Free Guidance (CFG), die conditionaliteit versterkt maar niet de cross-modale synchronisatie. Om deze uitdagingen te overwinnen, introduceren wij Harmony, een nieuw raamwerk dat audiovisuele synchronisatie mechanistisch afdwingt. Wij stellen eerst een Cross-Task Synergy-trainingsparadigma voor om drift te verminderen door gebruik te maken van sterke supervisiesignalen van audiogestuurde video- en videogestuurde audiogeneratietaken. Vervolgens ontwerpen we een Global-Local Decoupled Interaction Module voor efficiënte en precieze temporele-stijl-alignment. Ten slotte presenteren we een nieuwe Synchronization-Enhanced CFG (SyncCFG) die het alignmentsignaal tijdens inferentie expliciet isoleert en versterkt. Uitgebreide experimenten tonen aan dat Harmony een nieuwe state-of-the-art vestigt en bestaande methoden significant overtreft in zowel generatiefideliteit als, cruciaal, in het bereiken van fijngranulaire audiovisuele synchronisatie.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.