ChatPaper.aiChatPaper

UniVerse-1: Generazione Unificata di Audio-Video tramite Composizione di Esperti

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

September 7, 2025
Autori: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI

Abstract

Presentiamo UniVerse-1, un modello unificato simile a Veo-3, in grado di generare simultaneamente audio e video coordinati. Per migliorare l'efficienza dell'addestramento, evitiamo di partire da zero e utilizziamo invece una tecnica di "stitching of experts" (SoE). Questo approccio fonde in profondità i blocchi corrispondenti di modelli esperti pre-addestrati per la generazione di video e musica, sfruttando appieno le loro capacità di base. Per garantire annotazioni accurate e un allineamento temporale sia per i suoni ambientali che per il parlato rispetto al contenuto video, abbiamo sviluppato una pipeline di annotazione online che elabora i dati di addestramento necessari e genera etichette durante il processo di addestramento. Questa strategia evita il degrado delle prestazioni spesso causato da annotazioni testuali non allineate. Grazie alla sinergia di queste tecniche, il nostro modello, dopo essere stato perfezionato su circa 7.600 ore di dati audio-video, produce risultati con audio-visivi ben coordinati per la generazione di suoni ambientali e un forte allineamento per la generazione del parlato. Per valutare sistematicamente il metodo proposto, introduciamo Verse-Bench, un nuovo dataset di benchmark. Nel tentativo di avanzare la ricerca nella generazione audio-video e di colmare il divario di prestazioni con modelli all'avanguardia come Veo3, rendiamo pubblicamente disponibili il nostro modello e il codice. Speriamo che questo contributo possa beneficiare l'intera comunità di ricerca. Pagina del progetto: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of simultaneously generating coordinated audio and video. To enhance training efficiency, we bypass training from scratch and instead employ a stitching of experts (SoE) technique. This approach deeply fuses the corresponding blocks of pre-trained video and music generation experts models, thereby fully leveraging their foundational capabilities. To ensure accurate annotations and temporal alignment for both ambient sounds and speech with video content, we developed an online annotation pipeline that processes the required training data and generates labels during training process. This strategy circumvents the performance degradation often caused by misalignment text-based annotations. Through the synergy of these techniques, our model, after being finetuned on approximately 7,600 hours of audio-video data, produces results with well-coordinated audio-visuals for ambient sounds generation and strong alignment for speech generation. To systematically evaluate our proposed method, we introduce Verse-Bench, a new benchmark dataset. In an effort to advance research in audio-video generation and to close the performance gap with state-of-the-art models such as Veo3, we make our model and code publicly available. We hope this contribution will benefit the broader research community. Project page: https://dorniwang.github.io/UniVerse-1/.
PDF132September 9, 2025