WorldBench: Desambiguação da Física para Avaliação Diagnóstica de Modelos de Mundo

Resumo

Os recentes avanços em modelos fundamentais generativos, frequentemente denominados "modelos de mundo", têm impulsionado o interesse em sua aplicação em tarefas críticas, como o planejamento robótico e o treinamento de sistemas autónomos. Para uma implantação confiável, estes modelos devem exibir alta fidelidade física, simulando com precisão a dinâmica do mundo real. No entanto, os benchmarks de vídeo baseados em física existentes sofrem de entrelaçamento, onde um único teste avalia simultaneamente múltiplas leis e conceitos físicos, limitando fundamentalmente sua capacidade de diagnóstico. Apresentamos o WorldBench, um novo benchmark baseado em vídeo especificamente concebido para uma avaliação desentrelaçada e específica por conceito, permitindo-nos isolar e avaliar rigorosamente a compreensão de um único conceito ou lei física de cada vez. Para tornar o WorldBench abrangente, concebemos benchmarks em dois níveis diferentes: 1) uma avaliação da compreensão física intuitiva com conceitos como a permanência do objeto ou escala/perspetiva, e 2) uma avaliação de constantes físicas de baixo nível e propriedades dos materiais, como coeficientes de atrito ou viscosidade dos fluidos. Quando os modelos de mundo baseados em vídeo de última geração (SOTA) são avaliados no WorldBench, encontramos padrões específicos de falha em conceitos físicos particulares, com todos os modelos testados a carecer da consistência física necessária para gerar interações confiáveis no mundo real. Através da sua avaliação específica por conceito, o WorldBench oferece um quadro mais matizado e escalável para avaliar rigorosamente as capacidades de raciocínio físico da geração de vídeo e dos modelos de mundo, pavimentando o caminho para uma aprendizagem orientada por modelos de mundo mais robusta e generalizável.

English

Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.

WorldBench: Desambiguação da Física para Avaliação Diagnóstica de Modelos de Mundo

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

Resumo

Support