CogOmniControl: Geração de Vídeo Controlável Orientada por Raciocínio via Cognição de Intenção Criativa

Resumo

Modelos de difusão recentes alcançam forte fotorrealismo e fluência na geração de vídeos, mas ainda são frágeis sob condições abstratas, esparsas ou complexas, resultando em desempenho ruim em fluxos de trabalho profissionais de produção, como esboços de storyboard e condições de renderização em argila. Modelos existentes de geração de vídeos, seja injetando condições através de adaptadores ou acoplando um modelo genérico de visão-linguagem (VLM) a um backbone de difusão, deixam uma lacuna de capacidade e falham em produzir vídeos alinhados com a intenção criativa do usuário. Apresentamos o CogOmniControl, uma estrutura orientada por raciocínio que divide a geração controlável de vídeos em cognição da intenção criativa e geração. Especificamente, treinamos um CogVLM especializado utilizando dados autênticos de produção de anime. Comparado a VLMs genéricos, ele gera saídas mais profissionais e claras, reconhecendo com precisão a intenção criativa do usuário a partir de condições esparsas e abstratas, transformando essas pistas em saídas densas de raciocínio. Além disso, o CogOmniDiT unifica os controles de várias condições por meio de geração em contexto e é alinhado às saídas de raciocínio do CogVLM via aprendizado por reforço. Adicionalmente, aproveitando a capacidade robusta do CogVLM em orientar a geração de vídeos, liberamos seu potencial no planejamento de avaliadores específicos e habilitamos uma seleção do Melhor-de-N para os vídeos gerados. Essa integração transforma toda a estrutura em uma arquitetura de "laço fechado" semelhante a um arnês. Apresentamos também o CogReasonBench e o CogControlBench, construídos a partir de dados de fluxos de trabalho profissionais que carregam intenção criativa genuína, não simulada. Experimentos em dois benchmarks mostram que o CogOmniControl superou os modelos existentes de código aberto. Site do projeto: https://um-lab.github.io/CogOmniControl/

English

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/