ChatPaper.aiChatPaper

WorldBench: Disambiguierung der Physik zur diagnostischen Evaluierung von Weltmodellen

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

January 29, 2026
papers.authors: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi
cs.AI

papers.abstract

Jüngste Fortschritte bei generativen Fundamentalmodellen, oft als "Weltmodelle" bezeichnet, haben das Interesse an ihrer Anwendung für kritische Aufgaben wie Roboterplanung und das Training autonomer Systeme beflügelt. Für einen zuverlässigen Einsatz müssen diese Modelle eine hohe physikalische Treue aufweisen und reale Dynamiken präzise simulieren. Bestehende physikbasierte Video-Benchmarks leiden jedoch unter Vermischung (Entanglement), bei der ein einzelner Test mehrere physikalische Gesetze und Konzepte gleichzeitig bewertet, was ihre diagnostische Fähigkeit grundlegend einschränkt. Wir stellen WorldBench vor, einen neuartigen videobasierten Benchmark, der speziell für konzeptspezifische, entflochtene Evaluationen entwickelt wurde. Dies ermöglicht es uns, das Verständnis eines einzelnen physikalischen Konzepts oder Gesetzes streng isoliert und gezielt zu bewerten. Um WorldBench umfassend zu gestalten, entwerfen wir Benchmarks auf zwei Ebenen: 1) eine Evaluation des intuitiven physikalischen Verständnisses mit Konzepten wie Objektpermanenz oder Maßstab/Perspektive und 2) eine Evaluation niedrigstufiger physikalischer Konstanten und Materialeigenschaften wie Reibungskoeffizienten oder Fluidviskosität. Wenn state-of-the-art videobasierte Weltmodelle auf WorldBench evaluiert werden, zeigen sich spezifische Fehlermuster bei bestimmten Physikkonzepten. Alle getesteten Modelle wiesen die für die Erzeugung zuverlässiger realer Interaktionen erforderliche physikalische Konsistenz nicht auf. Durch seine konzeptspezifische Evaluation bietet WorldBench einen nuancierteren und skalierbaren Rahmen für die rigorose Bewertung der physikalischen Denkfähigkeiten von Videogenerierungs- und Weltmodellen und ebnet so den Weg für robusteres und generalisierbareres, weltmodellgestütztes Lernen.
English
Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.
PDF02January 31, 2026