UniVerse-1: Единая генерация аудио и видео через объединение экспертных моделей
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
Авторы: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
Аннотация
Мы представляем UniVerse-1 — унифицированную модель, подобную Veo-3, способную одновременно генерировать согласованные аудио и видео. Для повышения эффективности обучения мы избегаем обучения с нуля и вместо этого используем метод объединения экспертов (SoE). Этот подход глубоко интегрирует соответствующие блоки предварительно обученных моделей для генерации видео и музыки, тем самым полностью используя их базовые возможности. Чтобы обеспечить точные аннотации и временное согласование как для фоновых звуков, так и для речи с видеоконтентом, мы разработали онлайн-конвейер аннотаций, который обрабатывает необходимые обучающие данные и генерирует метки в процессе обучения. Эта стратегия позволяет избежать ухудшения производительности, часто вызванного несоответствием текстовых аннотаций. Благодаря синергии этих методов наша модель, после тонкой настройки на примерно 7 600 часах аудио-видео данных, выдает результаты с хорошо согласованными аудиовизуальными элементами для генерации фоновых звуков и сильным согласованием для генерации речи. Для систематической оценки предложенного метода мы представляем Verse-Bench — новый эталонный набор данных. Стремясь продвинуть исследования в области генерации аудио и видео и сократить разрыв в производительности с передовыми моделями, такими как Veo3, мы делаем нашу модель и код общедоступными. Мы надеемся, что этот вклад принесет пользу широкому исследовательскому сообществу. Страница проекта: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.