CogOmniControl: Управляемая рассуждениями генерация видео посредством когнитивного анализа творческого замысла

Аннотация

Недавние диффузионные модели демонстрируют высокий фотореализм и плавность в генерации видео, однако остаются хрупкими при абстрактных, разреженных или сложных условиях, что приводит к низкой производительности в профессиональных производственных процессах, таких как раскадровки и условия рендеринга глины. Существующие модели генерации видео либо внедряют условия через адаптеры, либо объединяют общую визуально-языковую модель (VLM) с диффузионным бэкбоном, оставляя разрыв в возможностях и неспособность создавать видео, соответствующие творческому замыслу пользователя. Мы представляем CogOmniControl — основанную на рассуждениях структуру, которая разделяет управляемую генерацию видео на познание творческого замысла и саму генерацию. В частности, мы обучаем специализированную CogVLM, используя аутентичные производственные данные аниме. По сравнению с общими VLM, она генерирует более профессиональные и четкие результаты, точно распознавая творческий замысел пользователя из разреженных и абстрактных условий и преобразуя эти сигналы в плотные результаты рассуждений. Кроме того, CogOmniDiT унифицирует управление от различных условий через внутриконтекстную генерацию и согласуется с результатами рассуждений CogVLM с помощью обучения с подкреплением. Более того, используя надежную способность CogVLM направлять генерацию видео, мы раскрываем ее потенциал в планировании конкретных оценщиков и обеспечиваем выбор Best-of-N для сгенерированных видео. Эта интеграция превращает всю структуру в замкнутую архитектуру типа «упряжки». Мы также представляем CogReasonBench и CogControlBench, построенные на данных профессиональных рабочих процессов, которые несут подлинный творческий замысел, а не смоделированный. Эксперименты на двух эталонных тестах показывают, что CogOmniControl превзошла существующие модели с открытым исходным кодом. Веб-сайт проекта: https://um-lab.github.io/CogOmniControl/

English

Recent diffusion models achieve strong photorealism and fluency in video generation, yet remain fragile under abstract, sparse or complex conditions, leading to poor performance in professional production workflows such as storyboard sketches and clay render conditions. Existing video generation models, either inject conditions through adapters or couple a generic vision-language model (VLM) within a diffusion backbone, leaving a capability gap and failing to produce the videos that align with the user's creative intent. We present CogOmniControl, a reasoning-driven framework that factorizes controllable video generation into creative intent cognition and generation. Specifically, we train a specialized CogVLM using authentic anime production data. Compared to generic VLMs, it generates more professional and clear outputs, accurately cognizing user creative intent from sparse and abstract conditions and tuning these cues into dense reasoning output. Besides, CogOmniDiT unifies the controls from various conditions through in-context generation and is aligned to the CogVLM reasoning outputs via reinforcement learning. Furthermore, leveraging CogVLM's robust capability in guiding video generation, we release its potential in planning specific evaluators and enable a Best-of-N selection for the generated videos. This integration transforms the entire framework into a closed-loop "harness-like" architecture. We further introduce CogReasonBench and CogControlBench, built from professional workflows data that carry genuine creative intent rather than simulated ones. Experiments on two benchmarks show that CogOmniControl surpassed the existing open-source models. The project website: https://um-lab.github.io/CogOmniControl/