UniVerse-1:エキスパートの統合による音声・映像生成の統一フレームワーク
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
著者: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
要旨
UniVerse-1を紹介します。これは、Veo-3に似た統合モデルであり、音声と映像を同時に生成することが可能です。トレーニング効率を向上させるため、ゼロからのトレーニングを回避し、代わりに「エキスパートの結合(SoE)」技術を採用しました。このアプローチでは、事前にトレーニングされた映像生成と音楽生成のエキスパートモデルの対応するブロックを深く融合させ、それらの基盤となる能力を最大限に活用します。環境音や音声と映像コンテンツの正確なアノテーションと時間的整合性を確保するため、必要なトレーニングデータを処理し、トレーニングプロセス中にラベルを生成するオンラインアノテーションパイプラインを開発しました。この戦略により、テキストベースのアノテーションの不整合による性能低下を回避しています。これらの技術の相乗効果により、約7,600時間の音声-映像データでファインチューニングされた当社のモデルは、環境音生成において音声と映像がよく調和した結果を生成し、音声生成においても強力な整合性を示します。提案手法を体系的に評価するため、新しいベンチマークデータセットであるVerse-Benchを導入しました。音声-映像生成の研究を進め、Veo3のような最先端モデルとの性能差を埋めるため、当社のモデルとコードを公開します。この貢献が広範な研究コミュニティに役立つことを願っています。プロジェクトページ: https://dorniwang.github.io/UniVerse-1/。
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.