UniVerse-1 : Génération unifiée audio-vidéo par assemblage d'experts
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
papers.authors: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
papers.abstract
Nous présentons UniVerse-1, un modèle unifié de type Veo-3 capable de générer simultanément des contenus audio et vidéo coordonnés. Pour améliorer l'efficacité de l'entraînement, nous évitons l'entraînement à partir de zéro et utilisons plutôt une technique de fusion d'experts (SoE). Cette approche fusionne en profondeur les blocs correspondants de modèles experts pré-entraînés pour la génération de vidéo et de musique, exploitant ainsi pleinement leurs capacités fondamentales. Pour garantir des annotations précises et un alignement temporel à la fois pour les sons ambiants et la parole avec le contenu vidéo, nous avons développé un pipeline d'annotation en ligne qui traite les données d'entraînement nécessaires et génère les étiquettes pendant le processus d'entraînement. Cette stratégie évite la dégradation des performances souvent causée par des annotations textuelles mal alignées. Grâce à la synergie de ces techniques, notre modèle, après avoir été affiné sur environ 7 600 heures de données audio-vidéo, produit des résultats avec des visuels et des sons ambiants bien coordonnés, ainsi qu'un fort alignement pour la génération de parole. Pour évaluer systématiquement notre méthode proposée, nous introduisons Verse-Bench, un nouvel ensemble de données de référence. Dans le but de faire progresser la recherche en génération audio-vidéo et de combler l'écart de performance avec les modèles de pointe tels que Veo3, nous rendons notre modèle et notre code publics. Nous espérons que cette contribution profitera à la communauté de recherche au sens large. Page du projet : https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.