OmniWeaving: Rumo à Geração Unificada de Vídeos com Composição e Raciocínio de Forma Livre

Resumo

Embora sistemas proprietários como o Seedance-2.0 tenham alcançado sucesso notável na geração de vídeo omni-capaz, as alternativas de código aberto ficam significativamente para trás. A maioria dos modelos acadêmicos permanece fortemente fragmentada, e os poucos esforços existentes em direção a uma geração de vídeo unificada ainda lutam para integrar perfeitamente tarefas diversas em um único framework. Para preencher essa lacuna, propomos o OmniWeaving, um modelo de geração de vídeo em nível ômni que apresenta capacidades poderosas de composição multimodal e fundamentadas em raciocínio. Ao aproveitar um conjunto de dados de pré-treinamento em larga escala que abrange diversos cenários composicionais e aumentados por raciocínio, o OmniWeaving aprende a vincular temporalmente entradas intercaladas de texto, múltiplas imagens e vídeo, atuando como um agente inteligente para inferir intenções complexas do usuário para uma criação de vídeo sofisticada. Além disso, introduzimos o IntelligentVBench, o primeiro benchmark abrangente projetado para avaliar rigorosamente a geração de vídeo unificada inteligente de próxima geração. Experimentos extensivos demonstram que o OmniWeaving alcança desempenho SoTA entre os modelos unificados de código aberto. Os códigos e o modelo serão disponibilizados publicamente em breve. Página do Projeto: https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving: Rumo à Geração Unificada de Vídeos com Composição e Raciocínio de Forma Livre

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Resumo

Support