ChatPaper.aiChatPaper

UniVerse-1: Единая генерация аудио и видео через объединение экспертных моделей

UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

September 7, 2025
Авторы: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI

Аннотация

Мы представляем UniVerse-1 — унифицированную модель, подобную Veo-3, способную одновременно генерировать согласованные аудио и видео. Для повышения эффективности обучения мы избегаем обучения с нуля и вместо этого используем метод объединения экспертов (SoE). Этот подход глубоко интегрирует соответствующие блоки предварительно обученных моделей для генерации видео и музыки, тем самым полностью используя их базовые возможности. Чтобы обеспечить точные аннотации и временное согласование как для фоновых звуков, так и для речи с видеоконтентом, мы разработали онлайн-конвейер аннотаций, который обрабатывает необходимые обучающие данные и генерирует метки в процессе обучения. Эта стратегия позволяет избежать ухудшения производительности, часто вызванного несоответствием текстовых аннотаций. Благодаря синергии этих методов наша модель, после тонкой настройки на примерно 7 600 часах аудио-видео данных, выдает результаты с хорошо согласованными аудиовизуальными элементами для генерации фоновых звуков и сильным согласованием для генерации речи. Для систематической оценки предложенного метода мы представляем Verse-Bench — новый эталонный набор данных. Стремясь продвинуть исследования в области генерации аудио и видео и сократить разрыв в производительности с передовыми моделями, такими как Veo3, мы делаем нашу модель и код общедоступными. Мы надеемся, что этот вклад принесет пользу широкому исследовательскому сообществу. Страница проекта: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of simultaneously generating coordinated audio and video. To enhance training efficiency, we bypass training from scratch and instead employ a stitching of experts (SoE) technique. This approach deeply fuses the corresponding blocks of pre-trained video and music generation experts models, thereby fully leveraging their foundational capabilities. To ensure accurate annotations and temporal alignment for both ambient sounds and speech with video content, we developed an online annotation pipeline that processes the required training data and generates labels during training process. This strategy circumvents the performance degradation often caused by misalignment text-based annotations. Through the synergy of these techniques, our model, after being finetuned on approximately 7,600 hours of audio-video data, produces results with well-coordinated audio-visuals for ambient sounds generation and strong alignment for speech generation. To systematically evaluate our proposed method, we introduce Verse-Bench, a new benchmark dataset. In an effort to advance research in audio-video generation and to close the performance gap with state-of-the-art models such as Veo3, we make our model and code publicly available. We hope this contribution will benefit the broader research community. Project page: https://dorniwang.github.io/UniVerse-1/.
PDF132September 9, 2025