ChatPaper.aiChatPaper

VisPhyWorld : Sonder le raisonnement physique via la reconstruction vidéo pilotée par le code

VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

February 9, 2026
papers.authors: Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen
cs.AI

papers.abstract

Évaluer si les modèles de langage de grande taille multimodaux (MLLM) raisonnent véritablement sur la dynamique physique reste un défi. La plupart des benchmarks existants reposent sur des protocoles de type reconnaissance, tels que le Question-Réponse Visuel (VQA) et la Violation d'Attente (VoE), qui peuvent souvent être résolus sans s'engager dans une hypothèse physique explicite et testable. Nous proposons VisPhyWorld, un cadre d'évaluation basé sur l'exécution qui évalue le raisonnement physique en exigeant des modèles qu'ils génèrent du code exécutable pour un simulateur à partir d'observations visuelles. En produisant un code exécutable, la représentation du monde inférée est directement inspectable, modifiable et falsifiable. Cela permet de dissocier le raisonnement physique du rendu. En nous appuyant sur ce cadre, nous présentons VisPhyBench, comprenant 209 scènes d'évaluation dérivées de 108 modèles physiques et un protocole systématique qui évalue la capacité des modèles à reconstruire l'apparence et à reproduire un mouvement physiquement plausible. Notre pipeline produit des vidéos de reconstruction valides dans 97,7 % des cas sur le benchmark. Les expériences montrent que si les MLLM de pointe atteignent une compréhension sémantique solide des scènes, ils peinent à inférer avec précision les paramètres physiques et à simuler une dynamique physique cohérente.
English
Evaluating whether Multimodal Large Language Models (MLLMs) genuinely reason about physical dynamics remains challenging. Most existing benchmarks rely on recognition-style protocols such as Visual Question Answering (VQA) and Violation of Expectation (VoE), which can often be answered without committing to an explicit, testable physical hypothesis. We propose VisPhyWorld, an execution-based framework that evaluates physical reasoning by requiring models to generate executable simulator code from visual observations. By producing runnable code, the inferred world representation is directly inspectable, editable, and falsifiable. This separates physical reasoning from rendering. Building on this framework, we introduce VisPhyBench, comprising 209 evaluation scenes derived from 108 physical templates and a systematic protocol that evaluates how well models reconstruct appearance and reproduce physically plausible motion. Our pipeline produces valid reconstructed videos in 97.7% on the benchmark. Experiments show that while state-of-the-art MLLMs achieve strong semantic scene understanding, they struggle to accurately infer physical parameters and to simulate consistent physical dynamics.
PDF112February 18, 2026