VisPhyWorld: 코드 기반 비디오 재구성을 통한 물리적 추론 탐구
VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction
February 9, 2026
저자: Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen
cs.AI
초록
다중모드 대규모 언어 모델(MLLM)이 실제로 물리적 역학에 대해 추론하는지를 평가하는 것은 여전히 어려운 과제입니다. 기존 벤치마크 대부분은 시각 질의응답(VQA) 및 기대 위반(VoE)과 같은 인식 중심 프로토콜에 의존하는데, 이러한 방식은 명시적이고 검증 가능한 물리적 가설을 세우지 않아도 답변이 가능한 경우가 많습니다. 우리는 시각 관측을 통해 실행 가능한 시뮬레이터 코드를 생성하도록 요구함으로써 물리적 추론을 평가하는 실행 기반 프레임워크인 VisPhyWorld를 제안합니다. 실행 가능한 코드를 생성함으로써 추론된 세계 표현은 직접 검사, 편집 및 반증이 가능합니다. 이는 물리적 추론과 렌더링을 분리합니다. 이 프레임워크를 기반으로 108개의 물리적 템플릿에서 도출된 209개의 평가 장면과 모델의 외관 재현 및 물리적으로 타당한 운동 재생성 능력을 체계적으로 평가하는 프로토콜로 구성된 VisPhyBench를 소개합니다. 우리의 파이프라인은 벤치마크에서 97.7%의 유효한 재구성 동영상을 생성합니다. 실험 결과, 최첨단 MLLM은 강력한 의미론적 장면 이해 능력을 보이지만, 물리적 매개변수를 정확히 추론하고 일관된 물리적 역학을 시뮬레이션하는 데는 어려움을 겪는 것으로 나타났습니다.
English
Evaluating whether Multimodal Large Language Models (MLLMs) genuinely reason about physical dynamics remains challenging. Most existing benchmarks rely on recognition-style protocols such as Visual Question Answering (VQA) and Violation of Expectation (VoE), which can often be answered without committing to an explicit, testable physical hypothesis. We propose VisPhyWorld, an execution-based framework that evaluates physical reasoning by requiring models to generate executable simulator code from visual observations. By producing runnable code, the inferred world representation is directly inspectable, editable, and falsifiable. This separates physical reasoning from rendering. Building on this framework, we introduce VisPhyBench, comprising 209 evaluation scenes derived from 108 physical templates and a systematic protocol that evaluates how well models reconstruct appearance and reproduce physically plausible motion. Our pipeline produces valid reconstructed videos in 97.7% on the benchmark. Experiments show that while state-of-the-art MLLMs achieve strong semantic scene understanding, they struggle to accurately infer physical parameters and to simulate consistent physical dynamics.