ChatPaper.aiChatPaper

UniVerse-1:エキスパートの統合による音声・映像生成の統一フレームワーク

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

September 7, 2025
著者: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI

要旨

UniVerse-1を紹介します。これは、Veo-3に似た統合モデルであり、音声と映像を同時に生成することが可能です。トレーニング効率を向上させるため、ゼロからのトレーニングを回避し、代わりに「エキスパートの結合(SoE)」技術を採用しました。このアプローチでは、事前にトレーニングされた映像生成と音楽生成のエキスパートモデルの対応するブロックを深く融合させ、それらの基盤となる能力を最大限に活用します。環境音や音声と映像コンテンツの正確なアノテーションと時間的整合性を確保するため、必要なトレーニングデータを処理し、トレーニングプロセス中にラベルを生成するオンラインアノテーションパイプラインを開発しました。この戦略により、テキストベースのアノテーションの不整合による性能低下を回避しています。これらの技術の相乗効果により、約7,600時間の音声-映像データでファインチューニングされた当社のモデルは、環境音生成において音声と映像がよく調和した結果を生成し、音声生成においても強力な整合性を示します。提案手法を体系的に評価するため、新しいベンチマークデータセットであるVerse-Benchを導入しました。音声-映像生成の研究を進め、Veo3のような最先端モデルとの性能差を埋めるため、当社のモデルとコードを公開します。この貢献が広範な研究コミュニティに役立つことを願っています。プロジェクトページ: https://dorniwang.github.io/UniVerse-1/。
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of simultaneously generating coordinated audio and video. To enhance training efficiency, we bypass training from scratch and instead employ a stitching of experts (SoE) technique. This approach deeply fuses the corresponding blocks of pre-trained video and music generation experts models, thereby fully leveraging their foundational capabilities. To ensure accurate annotations and temporal alignment for both ambient sounds and speech with video content, we developed an online annotation pipeline that processes the required training data and generates labels during training process. This strategy circumvents the performance degradation often caused by misalignment text-based annotations. Through the synergy of these techniques, our model, after being finetuned on approximately 7,600 hours of audio-video data, produces results with well-coordinated audio-visuals for ambient sounds generation and strong alignment for speech generation. To systematically evaluate our proposed method, we introduce Verse-Bench, a new benchmark dataset. In an effort to advance research in audio-video generation and to close the performance gap with state-of-the-art models such as Veo3, we make our model and code publicly available. We hope this contribution will benefit the broader research community. Project page: https://dorniwang.github.io/UniVerse-1/.
PDF132September 9, 2025