WorldBench: Разрешение неоднозначностей в физике для диагностической оценки мировых моделей
WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models
January 29, 2026
Авторы: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi
cs.AI
Аннотация
Последние достижения в области генеративных базовых моделей, часто называемых «моделями мира», стимулировали интерес к их применению для решения критически важных задач, таких как планирование в робототехнике и обучение автономных систем. Для надежного развертывания эти модели должны обладать высокой физической достоверностью, точно моделируя динамику реального мира. Однако существующие бенчмарки на основе видео, основанные на физике, страдают от проблемы смешения, когда один тест одновременно оценивает несколько физических законов и концепций, что фундаментально ограничивает их диагностическую способность. Мы представляем WorldBench — новый видеобенчмарк, специально разработанный для концептуально-специфичной, развязанной оценки, что позволяет нам строго изолировать и оценивать понимание отдельного физического понятия или закона за один раз. Чтобы сделать WorldBench всеобъемлющим, мы разрабатываем бенчмарки на двух различных уровнях: 1) оценка интуитивного физического понимания с такими концепциями, как постоянство объекта или масштаб/перспектива, и 2) оценка низкоуровневых физических констант и свойств материалов, таких как коэффициент трения или вязкость жидкости. Когда передовые видеомодели мира оцениваются на WorldBench, мы выявляем конкретные паттерны ошибок в определенных физических концепциях, причем все протестированные модели демонстрируют недостаток физической согласованности, необходимой для генерации надежных взаимодействий в реальном мире. Благодаря своей концептуально-специфичной оценке WorldBench предлагает более детализированную и масштабируемую основу для строгой оценки способностей к физическим рассуждениям у моделей генерации видео и моделей мира, прокладывая путь к более надежному и обобщаемому обучению на основе моделей мира.
English
Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.