UniVerse-1: Geünificeerde Audio-Video Generatie via het Aaneenschakelen van Experts
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
Auteurs: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
Samenvatting
We introduceren UniVerse-1, een geïntegreerd, Veo-3-achtig model dat in staat is om gecoördineerde audio en video gelijktijdig te genereren. Om de trainings efficiëntie te verbeteren, omzeilen we het trainen vanaf nul en gebruiken we in plaats daarvan een stitching of experts (SoE) techniek. Deze aanpak fuseert diepgaand de corresponderende blokken van vooraf getrainde video- en muziekgeneratie expertmodellen, waardoor hun fundamentele capaciteiten volledig worden benut. Om nauwkeurige annotaties en temporele uitlijning voor zowel omgevingsgeluiden als spraak met videocontent te garanderen, hebben we een online annotatiepijplijn ontwikkeld die de benodigde trainingsdata verwerkt en labels genereert tijdens het trainingsproces. Deze strategie omzeilt de prestatievermindering die vaak wordt veroorzaakt door verkeerd uitgelijnde tekstgebaseerde annotaties. Door de synergie van deze technieken produceert ons model, na te zijn afgestemd op ongeveer 7.600 uur aan audio-videodata, resultaten met goed gecoördineerde audio-visuals voor het genereren van omgevingsgeluiden en sterke uitlijning voor spraakgeneratie. Om onze voorgestelde methode systematisch te evalueren, introduceren we Verse-Bench, een nieuwe benchmarkdataset. In een poging om onderzoek in audio-videogeneratie vooruit te helpen en de prestatiekloof met state-of-the-art modellen zoals Veo3 te verkleinen, maken we ons model en code publiekelijk beschikbaar. We hopen dat deze bijdrage de bredere onderzoeksgemeenschap ten goede zal komen. Projectpagina: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.