OmniWeaving: Op Weg naar Uniforme Videogeneratie met Vrije-vorm Compositie en Redenering

Samenvatting

Hoewel propriëtaire systemen zoals Seedance-2.0 opmerkelijke successen hebben geboekt in alomvattende videogeneratie, blijven open-source alternatieven aanzienlijk achter. De meeste academische modellen zijn sterk gefragmenteerd, en de weinige bestaande inspanningen voor uniforme videogeneratie worstelen nog steeds om diverse taken naadloos te integreren binnen één enkel raamwerk. Om deze kloof te overbruggen, stellen wij OmniWeaving voor, een alomvattend videogeneratiemodel met krachtige multimodale compositie- en redeneercapaciteiten. Door gebruik te maken van een grootschalige pretrainingsdataset die diverse compositionele en redenering-versterkte scenario's omvat, leert OmniWeaving om door elkaar heen lopende tekst-, multi-beeld- en video-inputs temporeel te verbinden, terwijl het fungeert als een intelligente agent om complexe gebruikersintenties af te leiden voor geavanceerde videocreatie. Verder introduceren wij IntelligentVBench, de eerste uitgebreide benchmark die ontworpen is om next-level intelligente uniforme videogeneratie rigoureus te beoordelen. Uitgebreide experimenten tonen aan dat OmniWeaving state-of-the-art prestaties bereikt onder open-source uniforme modellen. De code en het model zullen binnenkort openbaar beschikbaar worden gesteld. Projectpagina: https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving: Op Weg naar Uniforme Videogeneratie met Vrije-vorm Compositie en Redenering

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Samenvatting

Support