WorldBench: Disambiguare la Fisica per la Valutazione Diagnostica dei Modelli del Mondo

Abstract

I recenti progressi nei modelli fondazionali generativi, spesso definiti "modelli del mondo", hanno stimolato l'interesse per la loro applicazione a compiti critici come la pianificazione robotica e l'addestramento di sistemi autonomi. Per un impiego affidabile, questi modelli devono mostrare un'elevata fedeltà fisica, simulando accuratamente le dinamiche del mondo reale. Tuttavia, gli attuali benchmark video basati sulla fisica soffrono di un problema di entanglement, in cui un singolo test valuta simultaneamente più leggi e concetti fisici, limitando fondamentalmente la loro capacità diagnostica. Introduciamo WorldBench, un nuovo benchmark basato su video specificamente progettato per una valutazione disaccoppiata e specifica per concetto, che ci permette di isolare e valutare rigorosamente la comprensione di un singolo concetto o legge fisica alla volta. Per rendere WorldBench completo, progettiamo benchmark a due livelli differenti: 1) una valutazione della comprensione fisica intuitiva con concetti come la permanenza dell'oggetto o la scala/prospettiva, e 2) una valutazione di costanti fisiche di basso livello e proprietà dei materiali, come i coefficienti di attrito o la viscosità dei fluidi. Quando i modelli del mondo basati su video allo stato dell'arte vengono valutati su WorldBench, individuiamo specifici pattern di fallimento in particolari concetti fisici, con tutti i modelli testati che mancano della consistenza fisica necessaria per generare interazioni affidabili nel mondo reale. Attraverso la sua valutazione specifica per concetto, WorldBench offre un framework più sfumato e scalabile per valutare rigorosamente le capacità di ragionamento fisico dei modelli di generazione video e del mondo, aprendo la strada a un apprendimento guidato da modelli del mondo più robusto e generalizzabile.

English

Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.

WorldBench: Disambiguare la Fisica per la Valutazione Diagnostica dei Modelli del Mondo

WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

Abstract

Support