UniVerse-1: Vereinheitlichte Audio-Video-Generierung durch Verknüpfung von Expertenmodellen
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
papers.authors: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
papers.abstract
Wir stellen UniVerse-1 vor, ein einheitliches, Veo-3-ähnliches Modell, das in der Lage ist, koordinierte Audio- und Videoinhalte gleichzeitig zu erzeugen. Um die Trainings effizienz zu steigern, umgehen wir das Training von Grund auf und verwenden stattdessen eine „Stitching of Experts“ (SoE)-Technik. Dieser Ansatz fusioniert tiefgreifend die entsprechenden Blöcke von vortrainierten Modellen für Video- und Musikerzeugung und nutzt so deren grundlegenden Fähigkeiten voll aus. Um genaue Annotationen und zeitliche Ausrichtung sowohl für Umgebungsgeräusche als auch für Sprache mit Videoinhalten sicherzustellen, haben wir einen Online-Annotationspipeline entwickelt, der die erforderlichen Trainingsdaten verarbeitet und während des Trainingsprozesses Labels generiert. Diese Strategie umgeht die Leistungsverschlechterung, die oft durch fehlausgerichtete textbasierte Annotationen verursacht wird. Durch die Synergie dieser Techniken erzeugt unser Modell, nachdem es auf etwa 7.600 Stunden Audio-Video-Daten feinabgestimmt wurde, Ergebnisse mit gut koordinierten Audio-Visuals für die Erzeugung von Umgebungsgeräuschen und starker Ausrichtung für die Spracherzeugung. Um unsere vorgeschlagene Methode systematisch zu bewerten, führen wir Verse-Bench ein, einen neuen Benchmark-Datensatz. Um die Forschung in der Audio-Video-Erzeugung voranzutreiben und die Leistungslücke zu state-of-the-art Modellen wie Veo3 zu schließen, stellen wir unser Modell und den Code öffentlich zur Verfügung. Wir hoffen, dass dieser Beitrag der breiteren Forschungsgemeinschaft zugutekommt. Projektseite: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.