UniAVGen: Унифицированное генерирование аудио и видео с асимметричными кросс-модальными взаимодействиями
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
November 5, 2025
Авторы: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI
Аннотация
Из-за отсутствия эффективного кросс-модального моделирования существующие методы генерации аудио-видео с открытым исходным кодом часто демонстрируют нарушенную синхронизацию губ и недостаточную семантическую согласованность. Для устранения этих недостатков мы предлагаем UniAVGen — унифицированную архитектуру для совместной генерации аудио и видео. В основе UniAVGen лежит двухканальная структура совместного синтеза, включающая два параллельных диффузионных трансформера (DiT) для построения единого кросс-модального латентного пространства. Ключевым элементом является механизм асимметричного кросс-модального взаимодействия, обеспечивающий двунаправленное, временнó́е кросс-внимание, что гарантирует точную пространственно-временную синхронизацию и семантическую согласованность. Кроме того, это взаимодействие усиливается модулем лице-ориентированной модуляции, который динамически выделяет значимые области в процессе взаимодействия. Для повышения достоверности генерации на этапе вывода мы дополнительно вводим модально-ориентированное управление без классификатора — новую стратегию, явно усиливающую сигналы кросс-модальной корреляции. Примечательно, что благодаря продуманной архитектуре совместного синтеза UniAVGen позволяет объединять ключевые задачи аудио-видео обработки в единой модели, такие как совместная генерация и продолжение аудио-видео, озвучивание видео и аудио-управляемый видеосинтез. Комплексные эксперименты подтверждают, что при значительно меньшем объеме обучающих данных (1,3 млн против 30,1 млн) UniAVGen демонстрирует общие преимущества в синхронизации аудио-видео, согласованности тембра и эмоциональной согласованности.
English
Due to the lack of effective cross-modal modeling, existing open-source
audio-video generation methods often exhibit compromised lip synchronization
and insufficient semantic consistency. To mitigate these drawbacks, we propose
UniAVGen, a unified framework for joint audio and video generation. UniAVGen is
anchored in a dual-branch joint synthesis architecture, incorporating two
parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent
space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which
enables bidirectional, temporally aligned cross-attention, thus ensuring
precise spatiotemporal synchronization and semantic consistency. Furthermore,
this cross-modal interaction is augmented by a Face-Aware Modulation module,
which dynamically prioritizes salient regions in the interaction process. To
enhance generative fidelity during inference, we additionally introduce
Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly
amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint
synthesis design enables seamless unification of pivotal audio-video tasks
within a single model, such as joint audio-video generation and continuation,
video-to-audio dubbing, and audio-driven video synthesis. Comprehensive
experiments validate that, with far fewer training samples (1.3M vs. 30.1M),
UniAVGen delivers overall advantages in audio-video synchronization, timbre
consistency, and emotion consistency.