PhysToolBench: MLLM을 위한 물리적 도구 이해 벤치마킹
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
October 10, 2025
저자: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI
초록
도구를 사용하고, 이해하며, 창조하는 능력은 인간 지능의 특징으로, 물리적 세계와의 정교한 상호작용을 가능하게 합니다. 진정한 다재다능성을 갖춘 일반 지능 에이전트는 이러한 기본적인 기술들도 숙달해야 합니다. 현대의 다중모달 대형 언어 모델(MLLMs)은 구체화된 AI와 다운스트림 시각-언어-행동(VLA) 모델에서 고차원적인 계획을 위해 방대한 상식 지식을 활용하지만, 물리적 도구에 대한 진정한 이해의 정도는 아직 정량화되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs의 물리적 도구 이해를 평가하는 최초의 벤치마크인 PhysToolBench를 제안합니다. 우리의 벤치마크는 1,000개 이상의 이미지-텍스트 쌍으로 구성된 시각 질의응답(VQA) 데이터셋으로 구조화되어 있으며, 세 가지 난이도 수준에서 능력을 평가합니다: (1) 도구 인식: 도구의 주요 기능을 인식하는 능력 요구. (2) 도구 이해: 도구의 작동 원리를 파악하는 능력 테스트. (3) 도구 창조: 기존의 도구가 없을 때 주변 물체로부터 새로운 도구를 만들어내는 능력 도전. 우리는 32개의 MLLMs(사유, 오픈소스, 특화된 구체화, VLA의 백본 포함)에 대한 포괄적인 평가를 통해 도구 이해에서의 상당한 결함을 밝혀냈습니다. 또한, 심층 분석과 함께 예비 해결책을 제안합니다. 코드와 데이터셋은 공개적으로 제공됩니다.
English
The ability to use, understand, and create tools is a hallmark of human
intelligence, enabling sophisticated interaction with the physical world. For
any general-purpose intelligent agent to achieve true versatility, it must also
master these fundamental skills. While modern Multimodal Large Language Models
(MLLMs) leverage their extensive common knowledge for high-level planning in
embodied AI and in downstream Vision-Language-Action (VLA) models, the extent
of their true understanding of physical tools remains unquantified. To bridge
this gap, we present PhysToolBench, the first benchmark dedicated to evaluating
the comprehension of physical tools by MLLMs. Our benchmark is structured as a
Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs.
It assesses capabilities across three distinct difficulty levels: (1) Tool
Recognition: Requiring the recognition of a tool's primary function. (2) Tool
Understanding: Testing the ability to grasp the underlying principles of a
tool's operation. (3) Tool Creation: Challenging the model to fashion a new
tool from surrounding objects when conventional options are unavailable. Our
comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source,
specialized embodied, and backbones in VLAs-reveals a significant deficiency in
tool understanding. Furthermore, we provide an in-depth analysis and propose
preliminary solutions. Code and dataset are publicly available.