PhysToolBench: Benchmarking van fysiek gereedschapbegrip voor MLLM's
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
October 10, 2025
Auteurs: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI
Samenvatting
Het vermogen om gereedschap te gebruiken, te begrijpen en te creëren is een kenmerk van menselijke intelligentie, wat een verfijnde interactie met de fysieke wereld mogelijk maakt. Voor een algemeen intelligente agent om echte veelzijdigheid te bereiken, moet deze ook deze fundamentele vaardigheden beheersen. Hoewel moderne Multimodale Grote Taalmodellen (MLLMs) hun uitgebreide algemene kennis benutten voor hoogwaardige planning in embodied AI en in downstream Vision-Language-Action (VLA) modellen, blijft de omvang van hun werkelijke begrip van fysiek gereedschap onbekend. Om deze kloof te overbruggen, presenteren we PhysToolBench, de eerste benchmark die specifiek is ontworpen om het begrip van fysiek gereedschap door MLLMs te evalueren. Onze benchmark is gestructureerd als een Visual Question Answering (VQA) dataset die bestaat uit meer dan 1.000 afbeelding-tekst paren. Het beoordeelt vaardigheden op drie verschillende moeilijkheidsniveaus: (1) Gereedschapsherkenning: Vereist het herkennen van de primaire functie van een gereedschap. (2) Gereedschapsbegrip: Test het vermogen om de onderliggende principes van de werking van een gereedschap te begrijpen. (3) Gereedschapscreatie: Daagt het model uit om een nieuw gereedschap te maken uit omringende objecten wanneer conventionele opties niet beschikbaar zijn. Onze uitgebreide evaluatie van 32 MLLMs - variërend van propriëtaire, open-source, gespecialiseerde embodied en backbones in VLA's - onthult een significant tekort in gereedschapsbegrip. Bovendien bieden we een diepgaande analyse en stellen we voorlopige oplossingen voor. Code en dataset zijn publiekelijk beschikbaar.
English
The ability to use, understand, and create tools is a hallmark of human
intelligence, enabling sophisticated interaction with the physical world. For
any general-purpose intelligent agent to achieve true versatility, it must also
master these fundamental skills. While modern Multimodal Large Language Models
(MLLMs) leverage their extensive common knowledge for high-level planning in
embodied AI and in downstream Vision-Language-Action (VLA) models, the extent
of their true understanding of physical tools remains unquantified. To bridge
this gap, we present PhysToolBench, the first benchmark dedicated to evaluating
the comprehension of physical tools by MLLMs. Our benchmark is structured as a
Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs.
It assesses capabilities across three distinct difficulty levels: (1) Tool
Recognition: Requiring the recognition of a tool's primary function. (2) Tool
Understanding: Testing the ability to grasp the underlying principles of a
tool's operation. (3) Tool Creation: Challenging the model to fashion a new
tool from surrounding objects when conventional options are unavailable. Our
comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source,
specialized embodied, and backbones in VLAs-reveals a significant deficiency in
tool understanding. Furthermore, we provide an in-depth analysis and propose
preliminary solutions. Code and dataset are publicly available.