UniAVGen: Generación Unificada de Audio y Vídeo con Interacciones Cross-Modales Asimétricas
UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
November 5, 2025
Autores: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang
cs.AI
Resumen
Debido a la falta de un modelado cruzado eficaz, los métodos existentes de generación audio-vídeo de código abierto a menudo presentan una sincronización labial comprometida y una consistencia semántica insuficiente. Para mitigar estos inconvenientes, proponemos UniAVGen, un marco unificado para la generación conjunta de audio y vídeo. UniAVGen se basa en una arquitectura de síntesis conjunta de doble rama, que incorpora dos Transformadores de Difusión (DiT) paralelos para construir un espacio latente cruzado cohesivo. En su núcleo se encuentra un mecanismo de Interacción Cruzada Asimétrica, que permite una atención cruzada bidireccional y temporalmente alineada, garantizando así una precisa sincronización espacio-temporal y una consistencia semántica. Además, esta interacción cruzada se ve potenciada por un módulo de Modulación Consciente del Rostro, que prioriza dinámicamente las regiones salientes en el proceso de interacción. Para mejorar la fidelidad generativa durante la inferencia, introducimos adicionalmente la Guía Libre de Clasificadores Consciente de la Modalidad, una estrategia novedosa que amplifica explícitamente las señales de correlación cruzada. Cabe destacar que el diseño robusto de síntesis conjunta de UniAVGen permite la unificación perfecta de tareas audio-vídeo cruciales dentro de un único modelo, como la generación y continuación conjunta de audio-vídeo, el doblaje de vídeo a audio y la síntesis de vídeo impulsada por audio. Experimentos exhaustivos validan que, con muchas menos muestras de entrenamiento (1,3M frente a 30,1M), UniAVGen ofrece ventajas generales en sincronización audio-vídeo, consistencia tímbrica y consistencia emocional.
English
Due to the lack of effective cross-modal modeling, existing open-source
audio-video generation methods often exhibit compromised lip synchronization
and insufficient semantic consistency. To mitigate these drawbacks, we propose
UniAVGen, a unified framework for joint audio and video generation. UniAVGen is
anchored in a dual-branch joint synthesis architecture, incorporating two
parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent
space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which
enables bidirectional, temporally aligned cross-attention, thus ensuring
precise spatiotemporal synchronization and semantic consistency. Furthermore,
this cross-modal interaction is augmented by a Face-Aware Modulation module,
which dynamically prioritizes salient regions in the interaction process. To
enhance generative fidelity during inference, we additionally introduce
Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly
amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint
synthesis design enables seamless unification of pivotal audio-video tasks
within a single model, such as joint audio-video generation and continuation,
video-to-audio dubbing, and audio-driven video synthesis. Comprehensive
experiments validate that, with far fewer training samples (1.3M vs. 30.1M),
UniAVGen delivers overall advantages in audio-video synchronization, timbre
consistency, and emotion consistency.