ChatPaper.aiChatPaper

PhysToolBench: Benchmarking des Verständnisses physischer Werkzeuge für MLLMs

PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

October 10, 2025
papers.authors: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI

papers.abstract

Die Fähigkeit, Werkzeuge zu verwenden, zu verstehen und zu erschaffen, ist ein Kennzeichen menschlicher Intelligenz und ermöglicht eine anspruchsvolle Interaktion mit der physischen Welt. Damit ein allgemeiner intelligenter Agent wahre Vielseitigkeit erreichen kann, muss er diese grundlegenden Fähigkeiten ebenfalls beherrschen. Während moderne Multimodale Large Language Models (MLLMs) ihr umfangreiches Allgemeinwissen für die hochrangige Planung in embodied AI und in nachgelagerten Vision-Language-Action (VLA)-Modellen nutzen, bleibt das Ausmaß ihres wahren Verständnisses physischer Werkzeuge unquantifiziert. Um diese Lücke zu schließen, präsentieren wir PhysToolBench, den ersten Benchmark, der der Bewertung des Verständnisses physischer Werkzeuge durch MLLMs gewidmet ist. Unser Benchmark ist als Visual Question Answering (VQA)-Datensatz strukturiert, der über 1.000 Bild-Text-Paare umfasst. Er bewertet Fähigkeiten auf drei unterschiedlichen Schwierigkeitsstufen: (1) Werkzeugerkennung: Erfordert die Erkennung der primären Funktion eines Werkzeugs. (2) Werkzeugverständnis: Testet die Fähigkeit, die zugrunde liegenden Prinzipien der Funktionsweise eines Werkzeugs zu erfassen. (3) Werkzeugkreation: Fordert das Modell heraus, ein neues Werkzeug aus umgebenden Objekten zu gestalten, wenn konventionelle Optionen nicht verfügbar sind. Unsere umfassende Bewertung von 32 MLLMs – einschließlich proprietärer, Open-Source-, spezialisierter embodied und Backbones in VLAs – offenbart ein erhebliches Defizit im Werkzeugverständnis. Darüber hinaus bieten wir eine detaillierte Analyse und schlagen vorläufige Lösungen vor. Code und Datensatz sind öffentlich verfügbar.
English
The ability to use, understand, and create tools is a hallmark of human intelligence, enabling sophisticated interaction with the physical world. For any general-purpose intelligent agent to achieve true versatility, it must also master these fundamental skills. While modern Multimodal Large Language Models (MLLMs) leverage their extensive common knowledge for high-level planning in embodied AI and in downstream Vision-Language-Action (VLA) models, the extent of their true understanding of physical tools remains unquantified. To bridge this gap, we present PhysToolBench, the first benchmark dedicated to evaluating the comprehension of physical tools by MLLMs. Our benchmark is structured as a Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs. It assesses capabilities across three distinct difficulty levels: (1) Tool Recognition: Requiring the recognition of a tool's primary function. (2) Tool Understanding: Testing the ability to grasp the underlying principles of a tool's operation. (3) Tool Creation: Challenging the model to fashion a new tool from surrounding objects when conventional options are unavailable. Our comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source, specialized embodied, and backbones in VLAs-reveals a significant deficiency in tool understanding. Furthermore, we provide an in-depth analysis and propose preliminary solutions. Code and dataset are publicly available.
PDF102October 13, 2025