ChatPaper.aiChatPaper

Armonía: Sincronización de la Generación de Audio y Video mediante Sinergia Interdisciplinaria

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

November 26, 2025
Autores: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI

Resumen

La síntesis de contenido audiovisual sincronizado es un desafío clave en la IA generativa, ya que los modelos de código abierto enfrentan dificultades para lograr una alineación robusta entre audio y vídeo. Nuestro análisis revela que este problema tiene su origen en tres desafíos fundamentales del proceso de difusión conjunta: (1) la Deriva de la Correspondencia, donde los latentes ruidosos que evolucionan concurrentemente impiden un aprendizaje estable de la alineación; (2) mecanismos de atención global ineficientes que no logran capturar indicios temporales de grano fino; y (3) el sesgo intramodal de la Guía Libre de Clasificador (CFG) convencional, que mejora la condicionalidad pero no la sincronización multimodal. Para superar estos desafíos, presentamos Harmony, un novedoso marco que refuerza mecánicamente la sincronización audiovisual. Primero proponemos un paradigma de entrenamiento de Sinergia Transversal para mitigar la deriva, aprovechando señales supervisoras fuertes de las tareas de generación de vídeo impulsado por audio y de audio impulsado por vídeo. Luego, diseñamos un Módulo de Interacción Disociada Global-Local para una alineación temporal y de estilo eficiente y precisa. Finalmente, presentamos una novedosa CFG Mejorada para Sincronización (SyncCFG) que aísla y amplifica explícitamente la señal de alineación durante la inferencia. Experimentos exhaustivos demuestran que Harmony establece un nuevo estado del arte, superando significativamente a los métodos existentes tanto en fidelidad de generación como, críticamente, en la consecución de una sincronización audiovisual de grano fino.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.
PDF203December 1, 2025