PhysToolBench: Avaliação do Entendimento de Ferramentas Físicas para MLLMs
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
October 10, 2025
Autores: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI
Resumo
A capacidade de usar, compreender e criar ferramentas é uma característica marcante da inteligência humana, permitindo uma interação sofisticada com o mundo físico. Para que qualquer agente inteligente de propósito geral alcance verdadeira versatilidade, ele também deve dominar essas habilidades fundamentais. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) modernos aproveitem seu extenso conhecimento comum para planejamento de alto nível em IA incorporada e em modelos subsequentes de Visão-Linguagem-Ação (VLA), a extensão de sua verdadeira compreensão das ferramentas físicas permanece não quantificada. Para preencher essa lacuna, apresentamos o PhysToolBench, o primeiro benchmark dedicado a avaliar a compreensão de ferramentas físicas por MLLMs. Nosso benchmark é estruturado como um conjunto de dados de Resposta a Perguntas Visuais (VQA) composto por mais de 1.000 pares de imagem-texto. Ele avalia capacidades em três níveis distintos de dificuldade: (1) Reconhecimento de Ferramentas: Exigindo o reconhecimento da função principal de uma ferramenta. (2) Compreensão de Ferramentas: Testando a capacidade de entender os princípios subjacentes ao funcionamento de uma ferramenta. (3) Criação de Ferramentas: Desafiando o modelo a criar uma nova ferramenta a partir de objetos ao redor quando as opções convencionais não estão disponíveis. Nossa avaliação abrangente de 32 MLLMs—abrangendo modelos proprietários, de código aberto, especializados em incorporação e backbones em VLAs—revela uma deficiência significativa na compreensão de ferramentas. Além disso, fornecemos uma análise detalhada e propomos soluções preliminares. O código e o conjunto de dados estão publicamente disponíveis.
English
The ability to use, understand, and create tools is a hallmark of human
intelligence, enabling sophisticated interaction with the physical world. For
any general-purpose intelligent agent to achieve true versatility, it must also
master these fundamental skills. While modern Multimodal Large Language Models
(MLLMs) leverage their extensive common knowledge for high-level planning in
embodied AI and in downstream Vision-Language-Action (VLA) models, the extent
of their true understanding of physical tools remains unquantified. To bridge
this gap, we present PhysToolBench, the first benchmark dedicated to evaluating
the comprehension of physical tools by MLLMs. Our benchmark is structured as a
Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs.
It assesses capabilities across three distinct difficulty levels: (1) Tool
Recognition: Requiring the recognition of a tool's primary function. (2) Tool
Understanding: Testing the ability to grasp the underlying principles of a
tool's operation. (3) Tool Creation: Challenging the model to fashion a new
tool from surrounding objects when conventional options are unavailable. Our
comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source,
specialized embodied, and backbones in VLAs-reveals a significant deficiency in
tool understanding. Furthermore, we provide an in-depth analysis and propose
preliminary solutions. Code and dataset are publicly available.