ChatPaper.aiChatPaper

월드벤치: 세계 모델의 진단 평가를 위한 물리 현상 명확화

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

January 29, 2026
저자: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi
cs.AI

초록

생성형 기초 모델(일명 "월드 모델")의 최근 발전은 로봇 계획 및 자율 시스템 훈련과 같은 중요한 작업에 이를 적용하려는 관심을 촉진시켰습니다. 안정적인 배포를 위해서는 이러한 모델이 높은 물리적 정확도를 나타내며 현실 세계의 역학을 정확하게 시뮬레이션해야 합니다. 그러나 기존의 물리 기반 비디오 벤치마크는 얽힘 문제를 겪고 있는데, 이는 단일 테스트에서 여러 물리 법칙과 개념을 동시에 평가하여 진단 능력을 근본적으로 제한합니다. 본 연구에서는 개념별로 분리된 평가를 위해 특별히 설계된 새로운 비디오 기반 벤치마크인 WorldBench를 소개합니다. 이를 통해 단일 물리 개념이나 법칙에 대한 이해를 엄격하게 분리하여 평가할 수 있습니다. WorldBench를 포괄적으로 만들기 위해 두 가지 수준의 벤치마크를 설계합니다: 1) 객체 영속성이나 규모/원근법과 같은 개념에 대한 직관적 물리 이해 평가, 2) 마찰 계수나 유체 점성도와 같은 저수준 물리 상수 및 재료 특성 평가. SOTA 비디오 기반 월드 모델을 WorldBench로 평가한 결과, 특정 물리 개념에서 명확한 실패 패턴이 발견되었으며, 테스트된 모든 모델이 신뢰할 수 있는 현실 세계 상호작용을 생성하는 데 필요한 물리적 일관성을 갖추지 못했습니다. 개념별 평가를 통해 WorldBench는 비디오 생성 및 월드 모델의 물리 추론 능력을 엄격하게 평가하기 위한 더욱 세분화되고 확장 가능한 프레임워크를 제공하며, 더욱 강력하고 일반화 가능한 월드 모델 기반 학습의 길을 열어줍니다.
English
Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.
PDF02January 31, 2026