ChatPaper.aiChatPaper

世界シミュレータは推論できるか?Gen-ViRe:生成的視覚推論ベンチマーク

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

November 17, 2025
著者: Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
cs.AI

要旨

思考連鎖(CoT)プロンプティングは大規模言語モデル(LLM)において高度な記号的推論を可能にする一方で、離散的なテキストの枠組みに留まり、現実世界の物理法則に支配された連続的なダイナミクスをシミュレートすることはできません。近年登場した映像生成モデルは、フレーム連鎖(CoF)推論を通じて潜在的な世界シミュレーターとして台頭しています。これは思考をフレーム単位の視覚的連続として具体化し、各フレームが物理的に根拠付けられた推論ステップを表現するアプローチです。説得力のある実証例があるにもかかわらず、課題が残っています。既存のベンチマークは忠実度や整合性に焦点を当てる一方で、CoF推論を評価せず、多段階計画立案、アルゴリズム的論理、抽象的なパターン外挿といった中核的認知能力を測定できません。この評価の空白が、モデル能力の体系的理解と改善のための原理的な指針の確立を妨げています。 本研究では、認知科学と現実世界のAI応用に基づくフレームワーク「Gen-ViRe(生成的視覚推論ベンチマーク)」を提案します。これはCoF推論を6つの認知次元(知覚的論理から抽象的計画立案まで)と24のサブタスクに分解します。マルチソースデータのキュレーション、最小限のプロンプトプロトコル、詳細な評価基準に基づくVLM支援のハイブリッド評価を通じて、Gen-ViReは映像モデルを推論主体として定量評価する初の枠組みを提供します。最新のシステムを用いた実験では、印象的な視覚的品質と実際の推論深度の間に大きな乖離があることが明らかになり、真の世界シミュレーターの発展に向けたベースラインと診断ツールを確立しました。
English
While Chain-of-Thought (CoT) prompting enables sophisticated symbolic reasoning in LLMs, it remains confined to discrete text and cannot simulate the continuous, physics-governed dynamics of the real world. Recent video generation models have emerged as potential world simulators through Chain-of-Frames (CoF) reasoning -- materializing thought as frame-by-frame visual sequences, with each frame representing a physically-grounded reasoning step. Despite compelling demonstrations, a challenge persists: existing benchmarks, focusing on fidelity or alignment, do not assess CoF reasoning and thus cannot measure core cognitive abilities in multi-step planning, algorithmic logic, or abstract pattern extrapolation. This evaluation void prevents systematic understanding of model capabilities and principled guidance for improvement. We introduce Gen-ViRe (Generative Visual Reasoning Benchmark), a framework grounded in cognitive science and real-world AI applications, which decomposes CoF reasoning into six cognitive dimensions -- from perceptual logic to abstract planning -- and 24 subtasks. Through multi-source data curation, minimal prompting protocols, and hybrid VLM-assisted evaluation with detailed criteria, Gen-ViRe delivers the first quantitative assessment of video models as reasoners. Our experiments on SOTA systems reveal substantial discrepancies between impressive visual quality and actual reasoning depth, establishing baselines and diagnostic tools to advance genuine world simulators.
PDF343December 1, 2025