OmniWeaving: К унифицированному генеративному видео с произвольной композицией и логическим выводом

Аннотация

В то время как проприетарные системы, такие как Seedance-2.0, достигли значительных успехов в создании универсальных видео, открытые аналоги существенно отстают. Большинство академических моделей остаются сильно фрагментированными, а немногочисленные существующие попытки создания единой системы генерации видео по-прежнему сталкиваются с трудностями при бесшовной интеграции разнородных задач в рамках единого фреймворка. Чтобы сократить этот разрыв, мы представляем OmniWeaving — модель генерации видео на всех уровнях, обладающую мощными возможностями мультимодальной композиции и основанного на рассуждениях анализа. Используя масштабный набор данных для предварительного обучения, охватывающий разнообразные композиционные и обогащенные логикой сценарии, OmniWeaving учится временно связывать чередующиеся текстовые, мульти-изобразительные и видеовходы, действуя при этом как интеллектуальный агент, способный выводить сложные намерения пользователя для создания продвинутых видео. Кроме того, мы представляем IntelligentVBench — первый комплексный бенчмарк, разработанный для строгой оценки интеллектуальной унифицированной генерации видео следующего уровня. Многочисленные эксперименты демонстрируют, что OmniWeaving достигает наилучших результатов (SoTA) среди открытых унифицированных моделей. Код и модель будут вскоре общедоступны. Страница проекта: https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving: К унифицированному генеративному видео с произвольной композицией и логическим выводом

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Аннотация

Support