VisPhyWorld: Analisi del Ragionamento Fisico tramite Ricostruzione Video Guidata dal Codice

Abstract

Valutare se i Modelli Linguistici Multimodali (MLLM) ragionino veramente sulla dinamica fisica rimane una sfida. La maggior parte dei benchmark esistenti si basa su protocolli di tipo riconoscitivo come il Visual Question Answering (VQA) e la Violazione dell'Aspettativa (VoE), che spesso possono essere risolti senza impegnarsi in un'ipotesi fisica esplicita e verificabile. Proponiamo VisPhyWorld, un framework basato sull'esecuzione che valuta il ragionamento fisico richiedendo ai modelli di generare codice eseguibile per simulatori a partire da osservazioni visive. Producendo codice eseguibile, la rappresentazione del mondo inferita è direttamente ispezionabile, modificabile e falsificabile. Ciò separa il ragionamento fisico dal rendering. Basandoci su questo framework, introduciamo VisPhyBench, che comprende 209 scene di valutazione derivate da 108 modelli fisici e un protocollo sistematico che valuta quanto bene i modelli ricostruiscono l'aspetto e riproducono un movimento fisicamente plausibile. La nostra pipeline produce video ricostruiti validi nel 97.7% dei casi sul benchmark. Gli esperimenti mostrano che, sebbene gli MLLM all'avanguardia raggiungano una forte comprensione semantica della scena, hanno difficoltà a inferire accuratamente i parametri fisici e a simulare dinamiche fisiche consistenti.

English

Evaluating whether Multimodal Large Language Models (MLLMs) genuinely reason about physical dynamics remains challenging. Most existing benchmarks rely on recognition-style protocols such as Visual Question Answering (VQA) and Violation of Expectation (VoE), which can often be answered without committing to an explicit, testable physical hypothesis. We propose VisPhyWorld, an execution-based framework that evaluates physical reasoning by requiring models to generate executable simulator code from visual observations. By producing runnable code, the inferred world representation is directly inspectable, editable, and falsifiable. This separates physical reasoning from rendering. Building on this framework, we introduce VisPhyBench, comprising 209 evaluation scenes derived from 108 physical templates and a systematic protocol that evaluates how well models reconstruct appearance and reproduce physically plausible motion. Our pipeline produces valid reconstructed videos in 97.7% on the benchmark. Experiments show that while state-of-the-art MLLMs achieve strong semantic scene understanding, they struggle to accurately infer physical parameters and to simulate consistent physical dynamics.

VisPhyWorld: Analisi del Ragionamento Fisico tramite Ricostruzione Video Guidata dal Codice

VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

Abstract

Support