WorldBench: Het Ondubbelzinnig Maken van Natuurkunde voor Diagnostische Evaluatie van Wereldmodellen

Samenvatting

Recente vooruitgang in generatieve fundamentele modellen, vaak aangeduid als "wereldmodellen", heeft de belangstelling aangewakkerd om ze toe te passen op kritieke taken zoals robotplanning en training van autonome systemen. Voor een betrouwbare inzet moeten deze modellen een hoge fysieke nauwkeurigheid vertonen, waarbij ze de dynamiek van de echte wereld accuraat simuleren. Bestaande op fysica gebaseerde videobenchmarks lijden echter onder verstrengeling, waarbij een enkele test meerdere fysische wetten en concepten tegelijkertijd evalueert, wat hun diagnostische vermogen fundamenteel beperkt. Wij introduceren WorldBench, een nieuwe op video gebaseerde benchmark die specifiek is ontworpen voor conceptspecifieke, ontvlochten evaluatie, waardoor we het begrip van een enkel fysiek concept of een enkele wet rigoureus kunnen isoleren en beoordelen. Om WorldBench uitgebreid te maken, ontwerpen we benchmarks op twee verschillende niveaus: 1) een evaluatie van intuïtief fysiek begrip met concepten zoals objectpermanentie of schaal/perspectief, en 2) een evaluatie van laagwaardige fysische constanten en materiaaleigenschappen zoals wrijvingscoëfficiënten of vloeistofviscositeit. Wanneer state-of-the-art op video gebaseerde wereldmodellen worden geëvalueerd op WorldBench, vinden we specifieke patronen van falen bij bepaalde fysicaconcepten, waarbij alle geteste modellen de fysieke consistentie missen die nodig is om betrouwbare interacties in de echte wereld te genereren. Door zijn conceptspecifieke evaluatie biedt WorldBench een meer genuanceerd en schaalbaar kader voor het rigoureus evalueren van de fysieke redeneervaardigheden van videogeneratie- en wereldmodellen, waardoor de weg wordt geëffend voor robuustere en generaliseerbaare wereldmodel-gestuurde leerprocessen.

English

Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.

WorldBench: Het Ondubbelzinnig Maken van Natuurkunde voor Diagnostische Evaluatie van Wereldmodellen

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

Samenvatting

Support