WorldBench : Désambiguïsation de la physique pour l'évaluation diagnostique des modèles du monde
WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models
January 29, 2026
papers.authors: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi
cs.AI
papers.abstract
Les récents progrès des modèles génératifs fondamentaux, souvent appelés « modèles du monde », ont suscité un intérêt croissant pour leur application à des tâches critiques comme la planification robotique et l'entraînement de systèmes autonomes. Pour un déploiement fiable, ces modèles doivent présenter une haute fidélité physique, simulant avec précision la dynamique du monde réel. Cependant, les benchmarks vidéo existants basés sur la physique souffrent d'un problème d'enchevêtrement, où un seul test évalue simultanément plusieurs lois et concepts physiques, limitant fondamentalement leur capacité diagnostique. Nous présentons WorldBench, un nouveau benchmark vidéo conçu spécifiquement pour une évaluation désenchevêtrée et concept-spécifique, nous permettant d'isoler et d'évaluer rigoureusement la compréhension d'un seul concept ou loi physique à la fois. Pour rendre WorldBench exhaustif, nous concevons des benchmarks à deux niveaux distincts : 1) une évaluation de la compréhension intuitive de la physique avec des concepts tels que la permanence de l'objet ou l'échelle/la perspective, et 2) une évaluation des constantes physiques de bas niveau et des propriétés des matériaux, comme les coefficients de frottement ou la viscosité des fluides. Lorsque les modèles du monde basés sur la vidéo à l'état de l'art sont évalués sur WorldBench, nous identifions des schémas d'échec spécifiques pour des concepts physiques particuliers, tous les modèles testés manquant de la cohérence physique nécessaire pour générer des interactions fiables dans le monde réel. Grâce à son évaluation concept-spécifique, WorldBench offre un cadre plus nuancé et évolutif pour évaluer rigoureusement les capacités de raisonnement physique des modèles de génération vidéo et des modèles du monde, ouvrant la voie à un apprentissage piloté par des modèles du monde plus robuste et généralisable.
English
Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.