UniAVGen: Geração Unificada de Áudio e Vídeo com Interações Cross-Modais Assimétricas
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
November 5, 2025
Autores: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI
Resumo
Devido à falta de modelagem multimodal eficaz, os métodos existentes de geração áudio-vídeo de código aberto frequentemente apresentam sincronização labial comprometida e consistência semântica insuficiente. Para mitigar essas limitações, propomos o UniAVGen, uma estrutura unificada para geração conjunta de áudio e vídeo. O UniAVGen está ancorado em uma arquitetura de síntese conjunta de ramificação dupla, incorporando dois Transformadores de Difusão (DiTs) paralelos para construir um espaço latente multimodal coeso. Em seu núcleo reside um mecanismo de Interação Multimodal Assimétrica, que permite atenção cruzada bidirecional e temporalmente alinhada, garantindo assim sincronização espaço-temporal precisa e consistência semântica. Além disso, essa interação multimodal é ampliada por um módulo de Modulação com Consciência Facial, que prioriza dinamicamente regiões salientes no processo de interação. Para melhorar a fidelidade generativa durante a inferência, introduzimos adicionalmente a Orientação Livre de Classificador com Consciência de Modalidade, uma nova estratégia que amplifica explicitamente os sinais de correlação multimodal. Notavelmente, o projeto robusto de síntese conjunta do UniAVGen permite a unificação perfeita de tarefas áudio-vídeo cruciais em um único modelo, como geração e continuação conjunta de áudio-vídeo, dublagem de vídeo para áudio e síntese de vídeo conduzida por áudio. Experimentos abrangentes validam que, com muito menos amostras de treinamento (1,3M vs. 30,1M), o UniAVGen oferece vantagens gerais em sincronização áudio-vídeo, consistência de timbre e consistência emocional.
English
Due to the lack of effective cross-modal modeling, existing open-source
audio-video generation methods often exhibit compromised lip synchronization
and insufficient semantic consistency. To mitigate these drawbacks, we propose
UniAVGen, a unified framework for joint audio and video generation. UniAVGen is
anchored in a dual-branch joint synthesis architecture, incorporating two
parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent
space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which
enables bidirectional, temporally aligned cross-attention, thus ensuring
precise spatiotemporal synchronization and semantic consistency. Furthermore,
this cross-modal interaction is augmented by a Face-Aware Modulation module,
which dynamically prioritizes salient regions in the interaction process. To
enhance generative fidelity during inference, we additionally introduce
Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly
amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint
synthesis design enables seamless unification of pivotal audio-video tasks
within a single model, such as joint audio-video generation and continuation,
video-to-audio dubbing, and audio-driven video synthesis. Comprehensive
experiments validate that, with far fewer training samples (1.3M vs. 30.1M),
UniAVGen delivers overall advantages in audio-video synchronization, timbre
consistency, and emotion consistency.