ChatPaper.aiChatPaper

UniVerse-1: Geünificeerde Audio-Video Generatie via het Aaneenschakelen van Experts

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

September 7, 2025
Auteurs: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI

Samenvatting

We introduceren UniVerse-1, een geïntegreerd, Veo-3-achtig model dat in staat is om gecoördineerde audio en video gelijktijdig te genereren. Om de trainings efficiëntie te verbeteren, omzeilen we het trainen vanaf nul en gebruiken we in plaats daarvan een stitching of experts (SoE) techniek. Deze aanpak fuseert diepgaand de corresponderende blokken van vooraf getrainde video- en muziekgeneratie expertmodellen, waardoor hun fundamentele capaciteiten volledig worden benut. Om nauwkeurige annotaties en temporele uitlijning voor zowel omgevingsgeluiden als spraak met videocontent te garanderen, hebben we een online annotatiepijplijn ontwikkeld die de benodigde trainingsdata verwerkt en labels genereert tijdens het trainingsproces. Deze strategie omzeilt de prestatievermindering die vaak wordt veroorzaakt door verkeerd uitgelijnde tekstgebaseerde annotaties. Door de synergie van deze technieken produceert ons model, na te zijn afgestemd op ongeveer 7.600 uur aan audio-videodata, resultaten met goed gecoördineerde audio-visuals voor het genereren van omgevingsgeluiden en sterke uitlijning voor spraakgeneratie. Om onze voorgestelde methode systematisch te evalueren, introduceren we Verse-Bench, een nieuwe benchmarkdataset. In een poging om onderzoek in audio-videogeneratie vooruit te helpen en de prestatiekloof met state-of-the-art modellen zoals Veo3 te verkleinen, maken we ons model en code publiekelijk beschikbaar. We hopen dat deze bijdrage de bredere onderzoeksgemeenschap ten goede zal komen. Projectpagina: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of simultaneously generating coordinated audio and video. To enhance training efficiency, we bypass training from scratch and instead employ a stitching of experts (SoE) technique. This approach deeply fuses the corresponding blocks of pre-trained video and music generation experts models, thereby fully leveraging their foundational capabilities. To ensure accurate annotations and temporal alignment for both ambient sounds and speech with video content, we developed an online annotation pipeline that processes the required training data and generates labels during training process. This strategy circumvents the performance degradation often caused by misalignment text-based annotations. Through the synergy of these techniques, our model, after being finetuned on approximately 7,600 hours of audio-video data, produces results with well-coordinated audio-visuals for ambient sounds generation and strong alignment for speech generation. To systematically evaluate our proposed method, we introduce Verse-Bench, a new benchmark dataset. In an effort to advance research in audio-video generation and to close the performance gap with state-of-the-art models such as Veo3, we make our model and code publicly available. We hope this contribution will benefit the broader research community. Project page: https://dorniwang.github.io/UniVerse-1/.
PDF132September 9, 2025