OmniWeaving: Auf dem Weg zu einer einheitlichen Videogenerierung mit freiform Komposition und logischem Schlussfolgern
OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning
March 25, 2026
Autoren: Kaihang Pan, Qi Tian, Jianwei Zhang, Weijie Kong, Jiangfeng Xiong, Yanxin Long, Shixue Zhang, Haiyi Qiu, Tan Wang, Zheqi Lv, Yue Wu, Liefeng Bo, Siliang Tang, Zhao Zhong
cs.AI
Zusammenfassung
Während proprietäre Systeme wie Seedance-2.0 bemerkenswerte Erfolge bei der allumfassenden Videogenerierung erzielt haben, hinken Open-Source-Alternativen deutlich hinterher. Die meisten akademischen Modelle sind nach wie vor stark fragmentiert, und die wenigen bestehenden Ansätze für eine vereinheitlichte Videogenerierung haben nach wie vor Schwierigkeiten, verschiedene Aufgaben nahtlos in einem einzigen Framework zu integrieren. Um diese Lücke zu schließen, schlagen wir OmniWeaving vor, ein All-Level-Videogenerierungsmodell mit leistungsstarken multimodalen Kompositions- und reasoning-gestützten Fähigkeiten. Durch die Nutzung eines massiven Vortrainingsdatensatzes, der verschiedene kompositionelle und reasoning-erweiterte Szenarien umfasst, lernt OmniWeaving, zeitlich verschachtelte Text-, Multi-Bild- und Videoeingaben zu verknüpfen und gleichzeitig als intelligenter Agent komplexe Benutzerabsichten für anspruchsvolle Videocreation abzuleiten. Darüber hinaus führen wir IntelligentVBench ein, den ersten umfassenden Benchmark, der entwickelt wurde, um next-level intelligente, vereinheitlichte Videogenerierung rigoros zu bewerten. Umfangreiche Experimente belegen, dass OmniWeaving unter Open-Source-Vereinheitsmodellen state-of-the-art Leistung erreicht. Der Code und das Modell werden in Kürze öffentlich verfügbar gemacht. Projektseite: https://omniweaving.github.io.
English
While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.