CogOmniControl: Redeneringsgestuurde beheersbare videogeneratie via creatieve intentiecognitie

Samenvatting

Recente diffusiemodellen behalen sterke fotorealisme en vloeiendheid in videogeneratie, maar blijven kwetsbaar onder abstracte, schaarse of complexe omstandigheden, wat leidt tot slechte prestaties in professionele productieworkflows zoals storyboardschetsen en klei-renderomstandigheden. Bestaande videogeneratiemodellen injecteren óf condities via adapters óf koppelen een generiek visie-taalmodel (VLM) binnen een diffusie-backbone, wat een capaciteitskloof achterlaat en er niet in slaagt de video's te produceren die aansluiten bij de creatieve intentie van de gebruiker. We presenteren CogOmniControl, een redeneringsgedreven raamwerk dat controleerbare videogeneratie opdeelt in cognitie van creatieve intentie en generatie. Specifiek trainen we een gespecialiseerde CogVLM met behulp van authentieke anime-productiegegevens. In vergelijking met generieke VLM's genereert het professionelere en duidelijkere outputs, waarbij het nauwkeurig de creatieve intentie van de gebruiker herkent uit schaarse en abstracte condities en deze aanwijzingen omzet in dichte redeneringsoutput. Daarnaast verenigt CogOmniDiT de controles van verschillende condities via in-context generatie en wordt het afgestemd op de redeneringsoutputs van CogVLM via reinforcement learning. Verder gebruiken we de robuuste capaciteit van CogVLM bij het sturen van videogeneratie, ontgrendelen we het potentieel in het plannen van specifieke evaluatoren en maken we een Best-of-N-selectie mogelijk voor de gegenereerde video's. Deze integratie transformeert het hele raamwerk in een gesloten-lus 'harnas-achtige' architectuur. We introduceren verder CogReasonBench en CogControlBench, gebouwd op gegevens van professionele workflows die echte creatieve intentie bevatten in plaats van gesimuleerde. Experimenten op twee benchmarks tonen aan dat CogOmniControl de bestaande open-source modellen overtrof. De projectwebsite: https://um-lab.github.io/CogOmniControl/

English

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/