ChatPaper.aiChatPaper

QuantiPhy: 시각-언어 모델의 물리적 추론 능력을 평가하는 정량적 벤치마크

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

December 22, 2025
저자: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli
cs.AI

초록

물리적 세계에 대한 이해는 범용 AI 에이전트에게 필수적입니다. 그러나 최첨단 시각 인식 모델(예: 대규모 VLM)이 물리적 속성을 정량적으로 추론할 수 있는지는 여전히 불분명합니다. 기존 평가는 주로 VQA 기반이며 정성적이어서, 이러한 모델들이 비디오 관찰을 통해 움직이는 물체의 운동학적 양을 추론할 수 있는지에 대한 통찰력이 제한적입니다. 이를 해결하기 위해 우리는 VLM의 물리적 추론 능력을 정량적으로 측정하도록 설계된 최초의 벤치마크인 QuantiPhy를 소개합니다. 수치적 실측값(ground truth)을 포함한 3,300개 이상의 비디오-텍스트 인스턴스로 구성된 QuantiPhy는 주어진 특정 시점에서 물체의 크기, 속도, 가속도 중 하나를 사전 입력 정보로 사용하여 나머지 속성들을 추정하는 VLM의 성능을 평가합니다. 이 벤치마크는 표준화된 프롬프트와 채점 방식을 통해 수치적 정확도를 평가함으로써 모델 간 공정한 비교를 가능하게 합니다. 최첨단 VLM에 대한 우리의 실험 결과, 이들의 정성적 타당성과 실제 수치적 정확도 사이에 일관된 격차가 있음이 드러났습니다. 우리는 배경 노이즈, 반사실적 사전 정보, 전략적 프롬프팅과 같은 주요 요인들에 대한 심층 분석을 추가로 제공하며, 최첨단 VLM들이 운동학적 속성을 정량적으로 추론할 때 제공된 시각 및 텍스트 입력을 참조로 충실히 사용하기보다는 사전 훈련된 세계 지식에 크게 의존한다는 사실을 발견했습니다. QuantiPhy는 VLM이 단순한 언어적 타당성을 넘어 수치적으로 근거 있는 물리적 이해로 나아가도록 하는 최초의 엄격하고 확장 가능한 테스트베드를 제공합니다.
English
Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.
PDF21December 25, 2025