ChatPaper.aiChatPaper

PhysToolBench: Evaluación de la Comprensión de Herramientas Físicas para MLLMs

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

October 10, 2025
Autores: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI

Resumen

La capacidad de usar, comprender y crear herramientas es un sello distintivo de la inteligencia humana, permitiendo una interacción sofisticada con el mundo físico. Para que cualquier agente inteligente de propósito general alcance una verdadera versatilidad, también debe dominar estas habilidades fundamentales. Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) aprovechan su amplio conocimiento común para la planificación de alto nivel en IA encarnada y en modelos posteriores de Visión-Lenguaje-Acción (VLA), el alcance de su verdadera comprensión de las herramientas físicas sigue sin cuantificarse. Para cerrar esta brecha, presentamos PhysToolBench, el primer punto de referencia dedicado a evaluar la comprensión de herramientas físicas por parte de los MLLMs. Nuestro punto de referencia está estructurado como un conjunto de datos de Respuesta Visual a Preguntas (VQA, por sus siglas en inglés) que comprende más de 1,000 pares de imagen-texto. Evalúa capacidades en tres niveles de dificultad distintos: (1) Reconocimiento de Herramientas: Requiere el reconocimiento de la función principal de una herramienta. (2) Comprensión de Herramientas: Prueba la capacidad de comprender los principios subyacentes del funcionamiento de una herramienta. (3) Creación de Herramientas: Desafía al modelo a crear una nueva herramienta a partir de objetos circundantes cuando las opciones convencionales no están disponibles. Nuestra evaluación exhaustiva de 32 MLLMs, que abarca modelos propietarios, de código abierto, especializados en IA encarnada y modelos base en VLAs, revela una deficiencia significativa en la comprensión de herramientas. Además, proporcionamos un análisis en profundidad y proponemos soluciones preliminares. El código y el conjunto de datos están disponibles públicamente.
English
The ability to use, understand, and create tools is a hallmark of human intelligence, enabling sophisticated interaction with the physical world. For any general-purpose intelligent agent to achieve true versatility, it must also master these fundamental skills. While modern Multimodal Large Language Models (MLLMs) leverage their extensive common knowledge for high-level planning in embodied AI and in downstream Vision-Language-Action (VLA) models, the extent of their true understanding of physical tools remains unquantified. To bridge this gap, we present PhysToolBench, the first benchmark dedicated to evaluating the comprehension of physical tools by MLLMs. Our benchmark is structured as a Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs. It assesses capabilities across three distinct difficulty levels: (1) Tool Recognition: Requiring the recognition of a tool's primary function. (2) Tool Understanding: Testing the ability to grasp the underlying principles of a tool's operation. (3) Tool Creation: Challenging the model to fashion a new tool from surrounding objects when conventional options are unavailable. Our comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source, specialized embodied, and backbones in VLAs-reveals a significant deficiency in tool understanding. Furthermore, we provide an in-depth analysis and propose preliminary solutions. Code and dataset are publicly available.
PDF102October 13, 2025