ChatPaper.aiChatPaper

PhysToolBench: Benchmark per la Comprensione degli Strumenti Fisici nei Modelli Multilingue di Apprendimento (MLLMs)

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

October 10, 2025
Autori: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI

Abstract

La capacità di utilizzare, comprendere e creare strumenti è un tratto distintivo dell'intelligenza umana, che consente un'interazione sofisticata con il mondo fisico. Affinché un agente intelligente generico raggiunga una vera versatilità, deve padroneggiare anche queste abilità fondamentali. Sebbene i moderni Modelli Linguistici Multimodali di Grande Scala (MLLMs) sfruttino la loro vasta conoscenza comune per la pianificazione di alto livello nell'IA incarnata e nei modelli Visione-Linguaggio-Azione (VLA) a valle, l'estensione della loro vera comprensione degli strumenti fisici rimane non quantificata. Per colmare questa lacuna, presentiamo PhysToolBench, il primo benchmark dedicato alla valutazione della comprensione degli strumenti fisici da parte degli MLLMs. Il nostro benchmark è strutturato come un dataset di Risposte a Domande Visuali (VQA) composto da oltre 1.000 coppie immagine-testo. Valuta le capacità attraverso tre livelli di difficoltà distinti: (1) Riconoscimento dello Strumento: Richiede il riconoscimento della funzione principale di uno strumento. (2) Comprensione dello Strumento: Testa la capacità di cogliere i principi sottostanti al funzionamento di uno strumento. (3) Creazione dello Strumento: Sfida il modello a creare un nuovo strumento dagli oggetti circostanti quando le opzioni convenzionali non sono disponibili. La nostra valutazione completa di 32 MLLMs, che includono modelli proprietari, open-source, specializzati nell'IA incarnata e backbones nei VLA, rivela una significativa carenza nella comprensione degli strumenti. Inoltre, forniamo un'analisi approfondita e proponiamo soluzioni preliminari. Codice e dataset sono disponibili pubblicamente.
English
The ability to use, understand, and create tools is a hallmark of human intelligence, enabling sophisticated interaction with the physical world. For any general-purpose intelligent agent to achieve true versatility, it must also master these fundamental skills. While modern Multimodal Large Language Models (MLLMs) leverage their extensive common knowledge for high-level planning in embodied AI and in downstream Vision-Language-Action (VLA) models, the extent of their true understanding of physical tools remains unquantified. To bridge this gap, we present PhysToolBench, the first benchmark dedicated to evaluating the comprehension of physical tools by MLLMs. Our benchmark is structured as a Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs. It assesses capabilities across three distinct difficulty levels: (1) Tool Recognition: Requiring the recognition of a tool's primary function. (2) Tool Understanding: Testing the ability to grasp the underlying principles of a tool's operation. (3) Tool Creation: Challenging the model to fashion a new tool from surrounding objects when conventional options are unavailable. Our comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source, specialized embodied, and backbones in VLAs-reveals a significant deficiency in tool understanding. Furthermore, we provide an in-depth analysis and propose preliminary solutions. Code and dataset are publicly available.
PDF102October 13, 2025