OmniWeaving: Auf dem Weg zu einer einheitlichen Videogenerierung mit freiform Komposition und logischem Schlussfolgern

Zusammenfassung

Während proprietäre Systeme wie Seedance-2.0 bemerkenswerte Erfolge bei der allumfassenden Videogenerierung erzielt haben, hinken Open-Source-Alternativen deutlich hinterher. Die meisten akademischen Modelle sind nach wie vor stark fragmentiert, und die wenigen bestehenden Ansätze für eine vereinheitlichte Videogenerierung haben nach wie vor Schwierigkeiten, verschiedene Aufgaben nahtlos in einem einzigen Framework zu integrieren. Um diese Lücke zu schließen, schlagen wir OmniWeaving vor, ein All-Level-Videogenerierungsmodell mit leistungsstarken multimodalen Kompositions- und reasoning-gestützten Fähigkeiten. Durch die Nutzung eines massiven Vortrainingsdatensatzes, der verschiedene kompositionelle und reasoning-erweiterte Szenarien umfasst, lernt OmniWeaving, zeitlich verschachtelte Text-, Multi-Bild- und Videoeingaben zu verknüpfen und gleichzeitig als intelligenter Agent komplexe Benutzerabsichten für anspruchsvolle Videocreation abzuleiten. Darüber hinaus führen wir IntelligentVBench ein, den ersten umfassenden Benchmark, der entwickelt wurde, um next-level intelligente, vereinheitlichte Videogenerierung rigoros zu bewerten. Umfangreiche Experimente belegen, dass OmniWeaving unter Open-Source-Vereinheitsmodellen state-of-the-art Leistung erreicht. Der Code und das Modell werden in Kürze öffentlich verfügbar gemacht. Projektseite: https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving: Auf dem Weg zu einer einheitlichen Videogenerierung mit freiform Komposition und logischem Schlussfolgern

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Zusammenfassung

Support