ChatPaper.aiChatPaper

WorldBench: Desambiguación de la Física para la Evaluación Diagnóstica de Modelos del Mundo

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

January 29, 2026
Autores: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi
cs.AI

Resumen

Los recientes avances en modelos fundacionales generativos, a menudo denominados "modelos del mundo", han impulsado el interés en aplicarlos a tareas críticas como la planificación robótica y el entrenamiento de sistemas autónomos. Para un despliegue confiable, estos modelos deben exhibir una alta fidelidad física, simulando con precisión las dinámicas del mundo real. Sin embargo, los benchmarks de video basados en física existentes adolecen de un problema de entrelazamiento, donde una sola prueba evalúa simultáneamente múltiples leyes y conceptos físicos, lo que limita fundamentalmente su capacidad de diagnóstico. Presentamos WorldBench, un nuevo benchmark basado en video diseñado específicamente para una evaluación desentrelazada y específica por concepto, lo que nos permite aislar y evaluar rigurosamente la comprensión de un único concepto o ley física a la vez. Para que WorldBench sea integral, diseñamos benchmarks en dos niveles diferentes: 1) una evaluación de la comprensión física intuitiva con conceptos como la permanencia del objeto o la escala/perspectiva, y 2) una evaluación de constantes físicas de bajo nivel y propiedades de los materiales, como coeficientes de fricción o viscosidad de fluidos. Cuando los modelos del mundo basados en video de última generación son evaluados en WorldBench, encontramos patrones específicos de fallo en conceptos físicos particulares, careciendo todos los modelos probados de la consistencia física necesaria para generar interacciones confiables en el mundo real. A través de su evaluación específica por concepto, WorldBench ofrece un marco más matizado y escalable para evaluar rigurosamente las capacidades de razonamiento físico de los modelos de generación de video y del mundo, allanando el camino para un aprendizaje impulsado por modelos del mundo más robusto y generalizable.
English
Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.
PDF02January 31, 2026