OmniWeaving: Hacia la Generación Unificada de Video con Composición y Razonamiento de Forma Libre

Resumen

Si bien sistemas propietarios como Seedance-2.0 han logrado un éxito notable en la generación de video omnicapaz, las alternativas de código abierto se quedan significativamente rezagadas. La mayoría de los modelos académicos siguen estando muy fragmentados, y los pocos esfuerzos existentes hacia una generación de video unificada aún luchan por integrar perfectamente diversas tareas dentro de un único marco de trabajo. Para cerrar esta brecha, proponemos OmniWeaving, un modelo de generación de video a nivel omni que presenta potentes capacidades de composición multimodal e informadas por el razonamiento. Al aprovechar un conjunto de datos de preentrenamiento a gran escala que abarca diversos escenarios compositivos y aumentados con razonamiento, OmniWeaving aprende a vincular temporalmente entradas entrelazadas de texto, múltiples imágenes y video, actuando además como un agente inteligente para inferir intenciones complejas del usuario y realizar una creación de video sofisticada. Además, presentamos IntelligentVBench, el primer benchmark integral diseñado para evaluar rigurosamente la generación de video unificada inteligente de última generación. Experimentos exhaustivos demuestran que OmniWeaving alcanza un rendimiento de vanguardia (SoTA) entre los modelos unificados de código abierto. Los códigos y el modelo se harán públicos próximamente. Página del proyecto: https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving: Hacia la Generación Unificada de Video con Composición y Razonamiento de Forma Libre

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Resumen

Support