CogOmniControl: Generación de Video Controlable Impulsada por Razonamiento mediante Cognición de Intención Creativa

Resumen

Los recientes modelos de difusión logran un fuerte fotorrealismo y fluidez en la generación de videos, pero siguen siendo frágiles bajo condiciones abstractas, dispersas o complejas, lo que resulta en un rendimiento deficiente en flujos de trabajo profesionales como bocetos de storyboard y condiciones de renderizado en arcilla. Los modelos existentes de generación de video, ya sea que inyecten condiciones a través de adaptadores o acoplen un modelo genérico de visión-lenguaje (VLM) dentro de un backbone de difusión, presentan una brecha de capacidad y no logran producir videos que se alineen con la intención creativa del usuario. Presentamos CogOmniControl, un marco basado en razonamiento que descompone la generación controlable de video en cognición de la intención creativa y generación. Específicamente, entrenamos un CogVLM especializado utilizando datos auténticos de producción de anime. En comparación con los VLM genéricos, genera salidas más profesionales y claras, reconociendo con precisión la intención creativa del usuario a partir de condiciones abstractas y dispersas, y transformando estas señales en salidas de razonamiento densas. Además, CogOmniDiT unifica los controles de diversas condiciones a través de generación en contexto y se alinea con las salidas de razonamiento de CogVLM mediante aprendizaje por refuerzo. Asimismo, aprovechando la robusta capacidad de CogVLM para guiar la generación de video, liberamos su potencial en la planificación de evaluadores específicos y habilitamos una selección Best-of-N para los videos generados. Esta integración transforma todo el marco en una arquitectura de "arnés" de bucle cerrado. También presentamos CogReasonBench y CogControlBench, construidos a partir de datos de flujos de trabajo profesionales que contienen intenciones creativas genuinas, no simuladas. Los experimentos en dos puntos de referencia muestran que CogOmniControl superó a los modelos de código abierto existentes. Sitio web del proyecto: https://um-lab.github.io/CogOmniControl/

English

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/