UniVerse-1: Generación Unificada de Audio-Video mediante la Integración de Expertos
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
Autores: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
Resumen
Presentamos UniVerse-1, un modelo unificado similar a Veo-3 capaz de generar simultáneamente audio y video coordinados. Para mejorar la eficiencia del entrenamiento, evitamos el entrenamiento desde cero y, en su lugar, empleamos una técnica de ensamblaje de expertos (SoE, por sus siglas en inglés). Este enfoque fusiona profundamente los bloques correspondientes de modelos preentrenados de generación de video y música, aprovechando así plenamente sus capacidades fundamentales. Para garantizar anotaciones precisas y una alineación temporal tanto de los sonidos ambientales como del habla con el contenido de video, desarrollamos una pipeline de anotación en línea que procesa los datos de entrenamiento necesarios y genera etiquetas durante el proceso de entrenamiento. Esta estrategia evita la degradación del rendimiento que suele ser causada por la desalineación de las anotaciones basadas en texto. Gracias a la sinergia de estas técnicas, nuestro modelo, después de ser ajustado con aproximadamente 7,600 horas de datos de audio-video, produce resultados con audio-visuales bien coordinados para la generación de sonidos ambientales y una fuerte alineación para la generación de habla. Para evaluar sistemáticamente nuestro método propuesto, presentamos Verse-Bench, un nuevo conjunto de datos de referencia. En un esfuerzo por avanzar en la investigación de la generación de audio-video y reducir la brecha de rendimiento con modelos de última generación como Veo3, ponemos a disposición pública nuestro modelo y código. Esperamos que esta contribución beneficie a la comunidad investigadora en general. Página del proyecto: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.