MMGR: マルチモーダル生成推論
MMGR: Multi-Modal Generative Reasoning
December 16, 2025
著者: Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Xiao Wen, Jiuxiang Gu, Nanyun Peng, Junjie Hu
cs.AI
要旨
ビデオ基盤モデルは、視覚的にリアルで時間的一貫性のあるコンテンツを生成するが、世界シミュレーターとしての信頼性は、物理的・論理的・空間的制約を捉えているかどうかに依存する。既存の指標(Frèchet Video Distance: FVDなど)は知覚的品質を重視し、因果関係・物理法則・グローバル一貫性の違反といった推論の失敗を見落としている。我々は、物理的推論、論理的推論、3D空間推論、2D空間推論、時間的推論の5つの推論能力に基づく体系的な評価フレームワーク「MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)」を提案する。MMGRは、抽象推論(ARC-AGI、数独)、具身ナビゲーション(実世界3Dナビゲーションと位置推定)、物理常識(スポーツと合成的インタラクション)の3領域にわたる生成的推論を評価する。MMGRは、ビデオ生成と画像生成の両方にわたる全体的な正確性を要求する細粒度の指標を適用する。主要なビデオモデル(Veo-3、Sora-2、Wan-2.2)および画像モデル(Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image)をベンチマークした結果、領域間で顕著な性能差が明らかになった。モデルは物理常識タスクでは一定の成功を収めるが、抽象推論(ARC-AGIで精度10%未満)では低調であり、具身環境における長期的空間計画にも課題を抱える。我々の分析は、知覚的データへの過度な依存、弱いグローバル状態の一貫性、因果的正しさよりも視覚的尤もらしさを報酬とする目的関数など、現行モデルの主要な限界を浮き彫りにする。MMGRは、統合的な診断ベンチマークと、推論を意識した生成的ワールドモデルへの道筋を提供する。
English
Video foundation models generate visually realistic and temporally coherent content, but their reliability as world simulators depends on whether they capture physical, logical, and spatial constraints. Existing metrics such as Frechet Video Distance (FVD) emphasize perceptual quality and overlook reasoning failures, including violations of causality, physics, and global consistency. We introduce MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), a principled evaluation framework based on five reasoning abilities: Physical, Logical, 3D Spatial, 2D Spatial, and Temporal. MMGR evaluates generative reasoning across three domains: Abstract Reasoning (ARC-AGI, Sudoku), Embodied Navigation (real-world 3D navigation and localization), and Physical Commonsense (sports and compositional interactions). MMGR applies fine-grained metrics that require holistic correctness across both video and image generation. We benchmark leading video models (Veo-3, Sora-2, Wan-2.2) and image models (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revealing strong performance gaps across domains. Models show moderate success on Physical Commonsense tasks but perform poorly on Abstract Reasoning (below 10 percent accuracy on ARC-AGI) and struggle with long-horizon spatial planning in embodied settings. Our analysis highlights key limitations in current models, including overreliance on perceptual data, weak global state consistency, and objectives that reward visual plausibility over causal correctness. MMGR offers a unified diagnostic benchmark and a path toward reasoning-aware generative world models.