Harmonia: Harmonizando a Geração de Áudio e Vídeo por meio de Sinergia entre Tarefas

Resumo

A síntese de conteúdo audiovisual sincronizado é um desafio fundamental na IA generativa, com modelos de código aberto enfrentando dificuldades no robusto alinhamento áudio-vídeo. Nossa análise revela que esta questão está enraizada em três desafios fundamentais do processo de difusão conjunta: (1) Deriva de Correspondência, onde latentes ruidosos em evolução concorrente impedem a aprendizagem estável do alinhamento; (2) mecanismos de atenção global ineficientes que falham em capturar pistas temporais refinadas; e (3) o viés intramodal da Orientação Livre de Classificador (CFG) convencional, que melhora a condicionalidade mas não a sincronização cross-modal. Para superar estes desafios, introduzimos Harmony, uma estrutura inovadora que aplica mecanicamente a sincronização audiovisual. Primeiro propomos um paradigma de treinamento de Sinergia Cross-Tarefa para mitigar a deriva, aproveitando sinais supervisionais fortes das tarefas de geração de vídeo guiado por áudio e áudio guiado por vídeo. Em seguida, projetamos um Módulo de Interação Desacoplada Global-Local para alinhamento temporal-estilístico eficiente e preciso. Finalmente, apresentamos uma CFG Aprimorada por Sincronização (SyncCFG) que isola e amplifica explicitamente o sinal de alinhamento durante a inferência. Experimentos extensivos demonstram que Harmony estabelece um novo estado da arte, superando significativamente os métodos existentes tanto na fidelidade de geração quanto, crucialmente, na obtenção de sincronização audiovisual refinada.

English

The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.

Harmonia: Harmonizando a Geração de Áudio e Vídeo por meio de Sinergia entre Tarefas

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Resumo

Support