PhysToolBench : Évaluation de la compréhension des outils physiques pour les MLLM
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
October 10, 2025
papers.authors: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI
papers.abstract
La capacité à utiliser, comprendre et créer des outils est une caractéristique majeure de l'intelligence humaine, permettant une interaction sophistiquée avec le monde physique. Pour qu'un agent intelligent à usage général atteigne une véritable polyvalence, il doit également maîtriser ces compétences fondamentales. Bien que les modèles de langage multimodaux à grande échelle (MLLMs) exploitent leurs vastes connaissances communes pour la planification de haut niveau dans l'IA incarnée et dans les modèles Vision-Langage-Action (VLA) en aval, l'étendue de leur véritable compréhension des outils physiques reste non quantifiée. Pour combler cette lacune, nous présentons PhysToolBench, le premier benchmark dédié à l'évaluation de la compréhension des outils physiques par les MLLMs. Notre benchmark est structuré comme un ensemble de données de question-réponse visuelle (VQA) comprenant plus de 1 000 paires image-texte. Il évalue les capacités à trois niveaux de difficulté distincts : (1) Reconnaissance d'outils : Nécessitant la reconnaissance de la fonction principale d'un outil. (2) Compréhension d'outils : Testant la capacité à saisir les principes sous-jacents du fonctionnement d'un outil. (3) Création d'outils : Défiant le modèle à concevoir un nouvel outil à partir d'objets environnants lorsque les options conventionnelles sont indisponibles. Notre évaluation approfondie de 32 MLLMs - englobant des modèles propriétaires, open-source, spécialisés en IA incarnée et des modèles de base dans les VLA - révèle une déficience significative dans la compréhension des outils. De plus, nous fournissons une analyse détaillée et proposons des solutions préliminaires. Le code et l'ensemble de données sont disponibles publiquement.
English
The ability to use, understand, and create tools is a hallmark of human
intelligence, enabling sophisticated interaction with the physical world. For
any general-purpose intelligent agent to achieve true versatility, it must also
master these fundamental skills. While modern Multimodal Large Language Models
(MLLMs) leverage their extensive common knowledge for high-level planning in
embodied AI and in downstream Vision-Language-Action (VLA) models, the extent
of their true understanding of physical tools remains unquantified. To bridge
this gap, we present PhysToolBench, the first benchmark dedicated to evaluating
the comprehension of physical tools by MLLMs. Our benchmark is structured as a
Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs.
It assesses capabilities across three distinct difficulty levels: (1) Tool
Recognition: Requiring the recognition of a tool's primary function. (2) Tool
Understanding: Testing the ability to grasp the underlying principles of a
tool's operation. (3) Tool Creation: Challenging the model to fashion a new
tool from surrounding objects when conventional options are unavailable. Our
comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source,
specialized embodied, and backbones in VLAs-reveals a significant deficiency in
tool understanding. Furthermore, we provide an in-depth analysis and propose
preliminary solutions. Code and dataset are publicly available.