Armonia: Armonizzare la generazione audio e video attraverso la sinergia interdisciplinare
Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
November 26, 2025
Autori: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Abstract
La sintesi di contenuti audiovisivi sincronizzati rappresenta una sfida cruciale nell'IA generativa, con i modelli open-source che affrontano difficoltà nel garantire un robusto allineamento audio-video. La nostra analisi rivela che il problema è radicato in tre sfide fondamentali del processo di diffusione congiunta: (1) la Deriva della Corrispondenza, dove i segnali latenti rumorosi che evolvono concorrentemente ostacolano l'apprendimento stabile dell'allineamento; (2) meccanismi di attenzione globale inefficienti che non catturano i segnali temporali granulari; e (3) il bias intra-modale della Guida Classifier-Free (CFG) convenzionale, che migliora la condizionalità ma non la sincronizzazione cross-modale. Per superare queste sfide, introduciamo Harmony, un framework innovativo che applica meccanicamente la sincronizzazione audiovisiva. Proponiamo innanzitutto un paradigma di addestramento a Sinergia Incrociata per mitigare la deriva sfruttando forti segnali di supervisione dai compiti di generazione video guidata dall'audio e audio guidata dal video. Successivamente, progettiamo un Modulo di Interazione Disaccoppiata Globale-Locale per un allineamento temporale-stilistico efficiente e preciso. Infine, presentiamo una CFG Potenziata per la Sincronizzazione (SyncCFG) che isola ed amplifica esplicitamente il segnale di allineamento durante l'inferenza. Esperimenti estensivi dimostrano che Harmony stabilisce un nuovo stato dell'arte, superando significativamente i metodi esistenti sia nella fedeltà generativa che, soprattutto, nel raggiungimento di una sincronizzazione audiovisiva granulare.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.