UniVerse-1: Geração Unificada de Áudio-Vídeo por meio de Costura de Especialistas
UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
September 7, 2025
Autores: Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, Xinyao Liao, Deyu Zhou, Zixin Yin, Xili Dai, Daxin Jiang, Gang Yu
cs.AI
Resumo
Apresentamos o UniVerse-1, um modelo unificado, semelhante ao Veo-3, capaz de gerar simultaneamente áudio e vídeo coordenados. Para aumentar a eficiência do treinamento, evitamos o treinamento a partir do zero e, em vez disso, empregamos uma técnica de "costura de especialistas" (SoE, do inglês Stitching of Experts). Essa abordagem funde profundamente os blocos correspondentes de modelos especializados pré-treinados em geração de vídeo e música, aproveitando ao máximo suas capacidades fundamentais. Para garantir anotações precisas e alinhamento temporal tanto para sons ambientes quanto para fala com o conteúdo de vídeo, desenvolvemos um pipeline de anotação online que processa os dados de treinamento necessários e gera rótulos durante o processo de treinamento. Essa estratégia evita a degradação de desempenho frequentemente causada por anotações textuais desalinhadas. Através da sinergia dessas técnicas, nosso modelo, após ser ajustado em aproximadamente 7.600 horas de dados áudio-vídeo, produz resultados com áudio-visuais bem coordenados para geração de sons ambientes e forte alinhamento para geração de fala. Para avaliar sistematicamente o método proposto, introduzimos o Verse-Bench, um novo conjunto de dados de benchmark. Em um esforço para avançar a pesquisa em geração áudio-vídeo e reduzir a lacuna de desempenho em relação a modelos de ponta, como o Veo-3, disponibilizamos publicamente nosso modelo e código. Esperamos que essa contribuição beneficie a comunidade de pesquisa em geral. Página do projeto: https://dorniwang.github.io/UniVerse-1/.
English
We introduce UniVerse-1, a unified, Veo-3-like model capable of
simultaneously generating coordinated audio and video. To enhance training
efficiency, we bypass training from scratch and instead employ a stitching of
experts (SoE) technique. This approach deeply fuses the corresponding blocks of
pre-trained video and music generation experts models, thereby fully leveraging
their foundational capabilities. To ensure accurate annotations and temporal
alignment for both ambient sounds and speech with video content, we developed
an online annotation pipeline that processes the required training data and
generates labels during training process. This strategy circumvents the
performance degradation often caused by misalignment text-based annotations.
Through the synergy of these techniques, our model, after being finetuned on
approximately 7,600 hours of audio-video data, produces results with
well-coordinated audio-visuals for ambient sounds generation and strong
alignment for speech generation. To systematically evaluate our proposed
method, we introduce Verse-Bench, a new benchmark dataset. In an effort to
advance research in audio-video generation and to close the performance gap
with state-of-the-art models such as Veo3, we make our model and code publicly
available. We hope this contribution will benefit the broader research
community. Project page: https://dorniwang.github.io/UniVerse-1/.