ChatPaper.aiChatPaper

RULER-Bench: Исследование способностей моделей генерации видео следующего уровня к рассуждению на основе правил для фундаментального интеллекта в области компьютерного зрения

RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

December 2, 2025
Авторы: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI

Аннотация

Последние достижения в области генерации видео позволили синтезировать видеоролики с высокой временной согласованностью и впечатляющим визуальным качеством, что знаменует важный шаг на пути к созданию фундаментальных моделей компьютерного зрения. Существующие бенчмарки для оценки таких моделей в основном сосредоточены на аспектах, связанных с визуальным восприятием и пониманием, таких как эстетика изображения, соответствие инструкциям и временная целостность. Однако способности моделей генерации видео к логическому выводу на основе правил остаются в значительной степени неисследованными. Хотя недавние исследования провели предварительный анализ возможности использования видео-моделей в качестве обучаемых "с нуля", в них по-прежнему отсутствует детальная декомпозиция логических способностей и комплексный протокол оценки. Для устранения этого пробела мы представляем RULER-Bench — бенчмарк, предназначенный для оценки способности к логическому выводу моделей генерации видео с точки зрения когнитивных правил. Построенный на двух фундаментальных парадигмах — текстовое-описание-в-видео и изображение-в-видео — RULER-Bench охватывает 40 репрезентативных задач из шести категорий правил с 622 экземплярами высококачественных аннотаций. Для оценки каждого сгенерированного видео мы создали контрольный список из четырёх метрик и использовали GPT-4o для присвоения баллов каждому вопросу, достигнув 85% согласованности с человеческими оценками. Масштабные эксперименты показывают, что современная модель достигает лишь 48,87% по метрике согласованности с правилами, что указывает на значительный потенциал для улучшения логических способностей видео-моделей следующего поколения. Мы ожидаем, что инсайты, полученные с помощью RULER-Bench, будут способствовать дальнейшему развитию генерации видео с учётом логического вывода, продвигая модели к созданию фундаментального искусственного интеллекта для компьютерного зрения.
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.
PDF71December 4, 2025