PhysToolBench: MLLMの物理ツール理解のベンチマーキング
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
October 10, 2025
著者: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI
要旨
道具を使用し、理解し、創造する能力は、人間の知性の特徴であり、物理世界との高度な相互作用を可能にします。真に汎用的な知能エージェントが真の多様性を達成するためには、これらの基本的なスキルを習得する必要があります。現代のマルチモーダル大規模言語モデル(MLLMs)は、その膨大な常識を活用して、エンボディドAIや下流の視覚-言語-行動(VLA)モデルにおける高レベルの計画を可能にしていますが、物理的な道具に対する真の理解の程度はまだ定量化されていません。このギャップを埋めるために、私たちはPhysToolBenchを提案します。これは、MLLMsの物理的な道具の理解を評価するための最初のベンチマークです。私たちのベンチマークは、1,000以上の画像-テキストペアからなる視覚的質問応答(VQA)データセットとして構成されています。これは、3つの異なる難易度レベルにわたる能力を評価します:(1)道具の認識:道具の主要な機能を認識することを要求します。(2)道具の理解:道具の動作原理を理解する能力をテストします。(3)道具の創造:従来の選択肢が利用できない場合に、周囲のオブジェクトから新しい道具を作り出すことをモデルに挑戦させます。私たちは、32のMLLMs(プロプライエタリ、オープンソース、特殊なエンボディド、およびVLAのバックボーンを含む)を包括的に評価し、道具の理解における重大な欠陥を明らかにしました。さらに、詳細な分析を提供し、予備的な解決策を提案します。コードとデータセットは公開されています。
English
The ability to use, understand, and create tools is a hallmark of human
intelligence, enabling sophisticated interaction with the physical world. For
any general-purpose intelligent agent to achieve true versatility, it must also
master these fundamental skills. While modern Multimodal Large Language Models
(MLLMs) leverage their extensive common knowledge for high-level planning in
embodied AI and in downstream Vision-Language-Action (VLA) models, the extent
of their true understanding of physical tools remains unquantified. To bridge
this gap, we present PhysToolBench, the first benchmark dedicated to evaluating
the comprehension of physical tools by MLLMs. Our benchmark is structured as a
Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs.
It assesses capabilities across three distinct difficulty levels: (1) Tool
Recognition: Requiring the recognition of a tool's primary function. (2) Tool
Understanding: Testing the ability to grasp the underlying principles of a
tool's operation. (3) Tool Creation: Challenging the model to fashion a new
tool from surrounding objects when conventional options are unavailable. Our
comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source,
specialized embodied, and backbones in VLAs-reveals a significant deficiency in
tool understanding. Furthermore, we provide an in-depth analysis and propose
preliminary solutions. Code and dataset are publicly available.