CogOmniControl: Reasoning-gesteuerte kontrollierbare Videogenerierung mittels kreativer Absichtskognition

Zusammenfassung

Aktuelle Diffusionsmodelle erzielen eine starke Fotorealismus und Flüssigkeit in der Videogenerierung, bleiben aber unter abstrakten, spärlichen oder komplexen Bedingungen fragil, was zu schlechter Leistung in professionellen Produktionsabläufen wie Storyboard-Skizzen und Clay-Render-Bedingungen führt. Bestehende Videogenerierungsmodelle injizieren entweder Bedingungen durch Adapter oder koppeln ein generisches Vision-Language-Modell (VLM) in ein Diffusions-Backbone, was eine Fähigkeitslücke hinterlässt und es nicht gelingt, Videos zu produzieren, die mit der kreativen Absicht des Benutzers übereinstimmen. Wir stellen CogOmniControl vor, ein reasoning-gesteuertes Framework, das die kontrollierbare Videogenerierung in kognitive Erfassung der kreativen Absicht und Generierung aufteilt. Insbesondere trainieren wir ein spezialisiertes CogVLM mit authentischen Anime-Produktionsdaten. Im Vergleich zu generischen VLMs generiert es professionellere und klarere Ausgaben, erfasst die kreative Absicht des Benutzers genau aus spärlichen und abstrakten Bedingungen und wandelt diese Hinweise in dichte Reasoning-Ausgaben um. Darüber hinaus vereinheitlicht CogOmniDiT die Steuerungen aus verschiedenen Bedingungen durch In-Context-Generierung und wird durch Reinforcement Learning an die Reasoning-Ausgaben von CogVLM angepasst. Ferner nutzen wir die robuste Fähigkeit von CogVLM zur Steuerung der Videogenerierung, erschließen sein Potenzial bei der Planung spezifischer Evaluatoren und ermöglichen eine Best-of-N-Auswahl für die generierten Videos. Diese Integration verwandelt das gesamte Framework in eine geschlossene, „harness-artige“ Architektur. Wir führen außerdem CogReasonBench und CogControlBench ein, die aus Daten professioneller Arbeitsabläufe erstellt wurden, die echte kreative Absicht und nicht simulierte tragen. Experimente auf zwei Benchmarks zeigen, dass CogOmniControl die bestehenden Open-Source-Modelle übertrifft. Die Projektwebsite: https://um-lab.github.io/CogOmniControl/

English

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/