ChatPaper.aiChatPaper

ワールドベンチ:世界モデルの診断的評価のための物理的曖昧性解消

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

January 29, 2026
著者: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi
cs.AI

要旨

近年、「世界モデル」とも呼ばれる生成的基盤モデルの進歩により、ロボット計画や自律システム訓練といった重要なタスクへの応用に関心が高まっている。信頼性のある実用化には、これらのモデルが高い物理的忠実度を示し、現実世界のダイナミクスを正確にシミュレートすることが必須である。しかし、既存の物理ベースの動画ベンチマークは、単一のテストが複数の物理法則や概念を同時に評価する「もつれ」の問題を抱えており、診断能力を根本的に制限している。本研究では、概念ごとに分離された評価を可能にする、動画ベースの新しいベンチマーク「WorldBench」を提案する。これにより、単一の物理概念や法則の理解を厳密に分離して評価できる。WorldBenchを包括的なものとするため、2つの異なるレベルでベンチマークを設計した:1) 物体の永続性やスケール/遠近法といった概念に対する直感的物理理解の評価、および 2) 摩擦係数や流体粘性といった低レベルの物理定数および物質特性の評価である。SOTAの動画ベース世界モデルをWorldBenchで評価した結果、特定の物理概念において特有の失敗パターンが観察され、テストされた全てのモデルが信頼性のある実世界相互作用を生成するために必要な物理的一貫性を欠いていることが明らかになった。概念特化型の評価を通じて、WorldBenchは動画生成モデルや世界モデルの物理推論能力を厳密に評価するための、より細やかでスケーラブルな枠組みを提供する。これにより、より頑健で一般化可能な世界モデル駆動学習への道を開くものである。
English
Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.
PDF02January 31, 2026