ChatPaper.aiChatPaper

Harmonie : Harmoniser la génération audio et vidéo par une synergie inter-tâches

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

November 26, 2025
papers.authors: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

papers.abstract

La synthèse de contenu audiovisuel synchronisé représente un défi majeur dans l'IA générative, les modèles open source étant confrontés à des difficultés pour assurer un alignement robuste entre l'audio et la vidéo. Notre analyse révèle que ce problème trouve son origine dans trois défis fondamentaux du processus de diffusion conjoint : (1) la Dérive de Correspondance, où l'évolution concurrente de latents bruités entrave l'apprentissage stable de l'alignement ; (2) des mécanismes d'attention globale inefficaces qui ne capturent pas les indices temporels fins ; et (3) le biais intra-modal des méthodes Classifier-Free Guidance (CFG) conventionnelles, qui améliorent la conditionnalité mais pas la synchronisation intermodale. Pour surmonter ces défis, nous présentons Harmony, un nouveau cadre qui applique mécaniquement la synchronisation audiovisuelle. Nous proposons d'abord un paradigme d'entraînement par Synergie Trans-tâches pour atténuer la dérive en exploitant les signaux de supervision forts des tâches de génération vidéo pilotée par l'audio et audio pilotée par la vidéo. Ensuite, nous concevons un Module d'Interaction Découplée Globale-Locale pour un alignement temporel et stylistique efficace et précis. Enfin, nous présentons une nouvelle CFG Améliorée pour la Synchronisation (SyncCFG) qui isole et amplifie explicitement le signal d'alignement pendant l'inférence. Des expériences approfondies démontrent qu'Harmony établit un nouvel état de l'art, surpassant significativement les méthodes existantes tant en fidélité de génération que, crucialement, dans l'atteinte d'une synchronisation audiovisuelle fine.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.
PDF203December 1, 2025