VisPhyWorld: Investigação do Raciocínio Físico por meio da Reconstrução de Vídeo Orientada a Código

Resumo

A avaliação da capacidade dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para raciocinar genuinamente sobre dinâmicas físicas continua a ser um desafio. A maioria dos benchmarks existentes baseia-se em protocolos de estilo reconhecimento, como Resposta a Perguntas Visuais (VQA) e Violação de Expectativa (VoE), que frequentemente podem ser respondidos sem que o modelo se comprometa com uma hipótese física explícita e testável. Propomos o VisPhyWorld, uma estrutura baseada em execução que avalia o raciocínio físico exigindo que os modelos gerem código de simulador executável a partir de observações visuais. Ao produzir código executável, a representação do mundo inferida é diretamente inspecionável, editável e falseável. Isto separa o raciocínio físico da renderização. Com base nesta estrutura, introduzimos o VisPhyBench, que compreende 209 cenas de avaliação derivadas de 108 modelos físicos e um protocolo sistemático que avalia quão bem os modelos reconstroem a aparência e reproduzem movimentos fisicamente plausíveis. O nosso *pipeline* produz vídeos reconstruídos válidos em 97,7% dos casos no benchmark. Experiências mostram que, embora os MLLMs de última geração atinjam uma forte compreensão semântica da cena, eles lutam para inferir com precisão parâmetros físicos e para simular dinâmicas físicas consistentes.

English

Evaluating whether Multimodal Large Language Models (MLLMs) genuinely reason about physical dynamics remains challenging. Most existing benchmarks rely on recognition-style protocols such as Visual Question Answering (VQA) and Violation of Expectation (VoE), which can often be answered without committing to an explicit, testable physical hypothesis. We propose VisPhyWorld, an execution-based framework that evaluates physical reasoning by requiring models to generate executable simulator code from visual observations. By producing runnable code, the inferred world representation is directly inspectable, editable, and falsifiable. This separates physical reasoning from rendering. Building on this framework, we introduce VisPhyBench, comprising 209 evaluation scenes derived from 108 physical templates and a systematic protocol that evaluates how well models reconstruct appearance and reproduce physically plausible motion. Our pipeline produces valid reconstructed videos in 97.7% on the benchmark. Experiments show that while state-of-the-art MLLMs achieve strong semantic scene understanding, they struggle to accurately infer physical parameters and to simulate consistent physical dynamics.

VisPhyWorld: Investigação do Raciocínio Físico por meio da Reconstrução de Vídeo Orientada a Código

VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

Resumo

Support