OmniWeaving : Vers une génération vidéo unifiée avec composition et raisonnement de forme libre

Résumé

Bien que les systèmes propriétaires tels que Seedance-2.0 aient obtenu un succès remarquable dans la génération vidéo omni-capable, les alternatives open-source accusent un retard significatif. La plupart des modèles académiques restent fortement fragmentés, et les rares efforts existants vers une génération vidéo unifiée peinent encore à intégrer de manière transparente des tâches diverses au sein d'un même cadre. Pour combler cette lacune, nous proposons OmniWeaving, un modèle de génération vidéo omni-niveau doté de puissantes capacités de composition multimodale et de raisonnement. En tirant parti d'un jeu de données de pré-entraînement à grande échelle qui englobe divers scénarios compositionnels et augmentés par le raisonnement, OmniWeaving apprend à lier temporellement des entrées entrelacées de texte, d'images multiples et de vidéos, tout en agissant comme un agent intelligent pour inférer les intentions complexes des utilisateurs afin de créer des vidéos sophistiquées. Par ailleurs, nous introduisons IntelligentVBench, le premier benchmark complet conçu pour évaluer rigoureusement la génération vidéo unifiée intelligente de niveau supérieur. Des expériences approfondies démontrent qu'OmniWeaving atteint des performances à l'état de l'art parmi les modèles unifiés open-source. Les codes et le modèle seront bientôt rendus publics. Page du projet : https://omniweaving.github.io.

English

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.

OmniWeaving : Vers une génération vidéo unifiée avec composition et raisonnement de forme libre

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Résumé

Support