Harmonie: Harmonisierung von Audio- und Videoerzeugung durch übergreifende Aufgabensynergie
Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
November 26, 2025
papers.authors: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
papers.abstract
Die Synthese synchronisierter audiovisueller Inhalte stellt eine zentrale Herausforderung in der generativen KI dar, wobei Open-Source-Modelle mit Schwierigkeiten bei der robusten Audio-Video-Ausrichtung konfrontiert sind. Unsere Analyse zeigt, dass dieses Problem auf drei grundlegende Herausforderungen des gemeinsamen Diffusionsprozesses zurückzuführen ist: (1) Korrespondenzdrift, bei der sich gleichzeitig entwickelnde verrauschte Latents einen stabilen Erwerb der Ausrichtung verhindern; (2) ineffiziente globale Aufmerksamkeitsmechanismen, die feinkörnige zeitliche Hinweise nicht erfassen können; und (3) die intramodale Verzerrung der konventionellen klassifikatorfreien Führung (CFG), die die Konditionalität verbessert, jedoch nicht die crossmodale Synchronisation. Um diese Herausforderungen zu bewältigen, stellen wir Harmony vor, ein neuartiges Framework, das audiovisuelle Synchronisation mechanistisch erzwingt. Wir schlagen zunächst ein Cross-Task-Synergie-Trainingsparadigma vor, um die Drift durch die Nutzung starker Aufsichtssignale aus audio-gesteuerter Video- und video-gesteuerter Audioerzeugung zu mildern. Anschließend entwerfen wir ein Global-Local Decoupled Interaction Module für eine effiziente und präzise zeitliche Stilausrichtung. Schließlich präsentieren wir eine neuartige synchronisationsverstärkte CFG (SyncCFG), die das Ausrichtungssignal während der Inferenz explizit isoliert und verstärkt. Umfangreiche Experimente belegen, dass Harmony einen neuen State-of-the-Art etabliert und bestehende Methoden sowohl in der Erzeugungstreue als auch, entscheidend, bei der Erreichung feinkörniger audiovisueller Synchronisation signifikant übertrifft.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.