UniVerse-1: 전문가 모델 통합을 통한 통합 오디오-비디오 생성
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
저자: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
초록
우리는 조율된 오디오와 비디오를 동시에 생성할 수 있는 통합된 Veo-3 유사 모델인 UniVerse-1을 소개합니다. 학습 효율성을 높이기 위해, 처음부터 학습하는 방식을 우회하고 대신 전문가 모델 결합(SoE) 기법을 사용합니다. 이 접근 방식은 사전 학습된 비디오 및 음악 생성 전문가 모델의 해당 블록을 깊이 융합함으로써, 이들의 기초 능력을 최대한 활용합니다. 환경음 및 음성이 비디오 콘텐츠와 정확한 시간적 정렬을 갖도록 하기 위해, 우리는 학습 과정에서 필요한 학습 데이터를 처리하고 레이블을 생성하는 온라인 주석 파이프라인을 개발했습니다. 이 전략은 텍스트 기반 주석의 잘못된 정렬로 인해 종종 발생하는 성능 저하를 방지합니다. 이러한 기술들의 시너지를 통해, 약 7,600시간의 오디오-비디오 데이터에 대해 미세 조정된 우리의 모델은 환경음 생성에서 잘 조율된 오디오-비주얼 결과를 생성하며, 음성 생성에서도 강력한 정렬을 보여줍니다. 제안된 방법을 체계적으로 평가하기 위해, 우리는 새로운 벤치마크 데이터셋인 Verse-Bench를 도입했습니다. 오디오-비디오 생성 연구를 발전시키고 Veo3와 같은 최첨단 모델과의 성능 격차를 줄이기 위해, 우리는 모델과 코드를 공개적으로 제공합니다. 이 기여가 더 넓은 연구 커뮤니티에 도움이 되기를 바랍니다. 프로젝트 페이지: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.