RULER-Bench:ビジョン基盤モデルの次世代ビデオ生成モデルにおけるルールベース推論能力の評価
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
December 2, 2025
著者: Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
cs.AI
要旨
近年の動画生成技術は、時間的一貫性に優れ、視覚的品質の高い映像合成を可能にし、ビジョン基盤モデル実現に向けた重要な進展を示している。こうした動画生成モデルを評価する既存のベンチマークは、視覚的美観、指示への忠実度、時間的整合性など、視覚的知覚・理解に関連する要素に主眼が置かれている。しかし、動画生成モデルが持つルールベース推論能力は未だ十分に検証されていない。最近の研究では動画モデルのゼロショット学習能力に関する予備的検討が進められているものの、推論能力を細粒度で分解した体系的な評価枠組みは依然として不足している。この課題を解決するため、本論文では認知ルールの観点から動画生成モデルの推論能力を評価するベンチマーク「RULER-Bench」を提案する。テキスト対動画と画像対動画という二つの基本パラダイムに基づき、6つのルールカテゴリに跨る40の代表タスクを網羅し、622件の高品質注釈インスタンスを構築した。生成動画の評価では、4指標をカバーするチェックリストを作成し、GPT-4oを用いた自動採点を実施。人間の判断との一致率は85%に達した。大規模実験により、現状の最先端モデルでもルール整合性指標で48.87%に留まることが明らかとなり、次世代動画モデルにおける推論能力の大幅な改善余地が示された。RULER-Benchから得られる知見が、推論を意識した動画生成技術の発展を促進し、ビジョン基盤知能を目指す動画生成モデルの進化に寄与することを期待する。
English
Recent advances in video generation have enabled the synthesis of videos with strong temporal consistency and impressive visual quality, marking a crucial step toward vision foundation models. To evaluate these video generation models, existing benchmarks primarily focus on factors related to visual perception and understanding, like visual aesthetics, instruction adherence, and temporal coherence. However, the rule-based reasoning capabilities of video generation models remain largely unexplored. Although recent studies have carried out preliminary explorations into whether video models can serve as zero-shot learners, they still lack a fine-grained decomposition of reasoning capabilities and a comprehensive evaluation protocol. To address this gap, we introduce RULER-Bench, a benchmark designed to evaluate the reasoning ability of video generation models from the perspective of cognitive rules. Built upon two fundamental paradigms: text-to-video and image-to-video, RULER-Bench covers 40 representative tasks spanning six rule categories with 622 high-quality annotated instances. For the evaluation of each generated video, we construct a checklist covering four metrics and leverage GPT-o3 to assign scores to each question, achieving 85% alignment with human judgements. Extensive experiments show that the state-of-the-art model achieves only 48.87% on the rule coherence metric, highlighting significant room for improvement in the reasoning capability of next-level video models. We expect that the insight obtained from RULER-Bench will facilitate further development of reasoning-aware video generation, advancing video generation models toward vision foundation intelligence.