Гармония: Синхронизация генерации аудио и видео за счёт синергии между задачами
Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
November 26, 2025
Авторы: Teng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
cs.AI
Аннотация
Синтез синхронизированного аудиовизуального контента представляет собой ключевую проблему в генеративном ИИ, причем модели с открытым исходным кодом сталкиваются с трудностями в обеспечении надежного аудиовизуального соответствия. Наш анализ показывает, что эта проблема коренится в трех фундаментальных вызовах совместного диффузионного процесса: (1) *Расхождение соответствия* (Correspondence Drift), когда параллельно эволюционирующие зашумленные латентные переменные препятствуют стабильному обучению выравниванию; (2) неэффективные механизмы глобального внимания, которые не способны улавливать детальные временные паттерны; и (3) *внутримодальная смещенность* (intra-modal bias) традиционного управления без классификатора (Classifier-Free Guidance, CFG), которое улучшает условность, но не межмодальную синхронизацию. Для преодоления этих проблем мы представляем Harmony — новую архитектуру, которая механически обеспечивает аудиовизуальную синхронизацию. Сначала мы предлагаем парадигму обучения *Перекрестной синергии задач* (Cross-Task Synergy), чтобы уменьшить расхождение за счет использования сильных сигналов обучения от задач генерации видео на основе аудио и аудио на основе видео. Затем мы разрабатываем *Модуль разъединенного глобально-локального взаимодействия* (Global-Local Decoupled Interaction Module) для эффективного и точного временного и стилевого выравнивания. Наконец, мы представляем новое *Синхронизационно-усиленное CFG* (Synchronization-Enhanced CFG, SyncCFG), которое явно изолирует и усиливает сигнал синхронизации на этапе вывода. Многочисленные эксперименты демонстрируют, что Harmony устанавливает новый state-of-the-art, значительно превосходя существующие методы как по точности генерации, так и, что критически важно, по достижению детальной аудиовизуальной синхронизации.
English
The synthesis of synchronized audio-visual content is a key challenge in generative AI, with open-source models facing challenges in robust audio-video alignment. Our analysis reveals that this issue is rooted in three fundamental challenges of the joint diffusion process: (1) Correspondence Drift, where concurrently evolving noisy latents impede stable learning of alignment; (2) inefficient global attention mechanisms that fail to capture fine-grained temporal cues; and (3) the intra-modal bias of conventional Classifier-Free Guidance (CFG), which enhances conditionality but not cross-modal synchronization. To overcome these challenges, we introduce Harmony, a novel framework that mechanistically enforces audio-visual synchronization. We first propose a Cross-Task Synergy training paradigm to mitigate drift by leveraging strong supervisory signals from audio-driven video and video-driven audio generation tasks. Then, we design a Global-Local Decoupled Interaction Module for efficient and precise temporal-style alignment. Finally, we present a novel Synchronization-Enhanced CFG (SyncCFG) that explicitly isolates and amplifies the alignment signal during inference. Extensive experiments demonstrate that Harmony establishes a new state-of-the-art, significantly outperforming existing methods in both generation fidelity and, critically, in achieving fine-grained audio-visual synchronization.