CogOmniControl : Génération de vidéos contrôlable pilotée par le raisonnement via la cognition de l'intention créative

Résumé

Les modèles de diffusion récents atteignent un fort photoréalisme et une grande fluidité dans la génération vidéo, mais restent fragiles dans des conditions abstraites, clairsemées ou complexes, ce qui conduit à de mauvaises performances dans les flux de production professionnels tels que les croquis de storyboard et les conditions de rendu en argile. Les modèles de génération vidéo existants injectent soit des conditions via des adaptateurs, soit couplent un modèle vision-langage (VLM) générique dans un backbone de diffusion, laissant un écart de capacité et échouant à produire des vidéos alignées sur l'intention créative de l'utilisateur. Nous présentons CogOmniControl, un cadre basé sur le raisonnement qui factorise la génération vidéo contrôlable en cognition de l'intention créative et en génération. Plus précisément, nous entraînons un CogVLM spécialisé à l'aide de données authentiques de production d'anime. Comparé aux VLM génériques, il génère des sorties plus professionnelles et claires, cognisant avec précision l'intention créative de l'utilisateur à partir de conditions clairsemées et abstraites et transformant ces indications en une sortie de raisonnement dense. De plus, CogOmniDiT unifie les contrôles de diverses conditions via la génération en contexte et est aligné sur les sorties de raisonnement de CogVLM par apprentissage par renforcement. En outre, en tirant parti de la capacité robuste de CogVLM à guider la génération vidéo, nous libérons son potentiel pour planifier des évaluateurs spécifiques et permettons une sélection Best-of-N pour les vidéos générées. Cette intégration transforme l'ensemble du cadre en une architecture en boucle fermée de type « harnais ». Nous introduisons également CogReasonBench et CogControlBench, construits à partir de données de flux de travail professionnels portant une véritable intention créative plutôt que simulée. Les expériences sur deux bancs d'essai montrent que CogOmniControl a surpassé les modèles open source existants. Le site web du projet : https://um-lab.github.io/CogOmniControl/

English

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/