OmniWeaving: Verso una Generazione Video Unificata con Composizione e Ragionamento a Forma Libera

Abstract

Mentre i sistemi proprietari come Seedance-2.0 hanno ottenuto un notevole successo nella generazione di video onnicapaci, le alternative open-source rimangono significativamente indietro. La maggior parte dei modelli accademici rimane fortemente frammentata, e i pochi tentativi esistenti verso una generazione video unificata faticano ancora a integrare perfettamente compiti diversi all'interno di un unico framework. Per colmare questa lacuna, proponiamo OmniWeaving, un modello di generazione video a livelli onnicomprensivi che vanta potenti capacità di composizione multimodale e di ragionamento informato. Sfruttando un dataset di pre-addestramento su larga scala che comprende scenari diversificati, compositivi e potenziati dal ragionamento, OmniWeaving impara a legare temporalmente input intervallati di testo, multi-immagine e video, agendo al contempo come un agente intelligente per inferire le intenzioni complesse dell'utente per una creazione video sofisticata. Inoltre, introduciamo IntelligentVBench, il primo benchmark completo progettato per valutare rigorosamente la generazione video unificata intelligente di livello superiore. Esperimenti estensivi dimostrano che OmniWeaving raggiunge prestazioni allo stato dell'arte tra i modelli unificati open-source. I codici e il modello saranno presto resi pubblicamente disponibili. Pagina del progetto: https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving: Verso una Generazione Video Unificata con Composizione e Ragionamento a Forma Libera

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Abstract

Support