PhysToolBench: Бенчмарк для оценки понимания физических инструментов в многомодальных языковых моделях
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs
October 10, 2025
Авторы: Zixin Zhang, Kanghao Chen, Xingwang Lin, Lutao Jiang, Xu Zheng, Yuanhuiyi Lyu, Litao Guo, Yinchuan Li, Ying-Cong Chen
cs.AI
Аннотация
Способность использовать, понимать и создавать инструменты является отличительной чертой человеческого интеллекта, позволяющей осуществлять сложное взаимодействие с физическим миром. Для того чтобы любой универсальный интеллектуальный агент достиг истинной универсальности, он также должен овладеть этими фундаментальными навыками. Хотя современные мультимодальные большие языковые модели (MLLMs) используют свои обширные знания для высокоуровневого планирования в воплощённом ИИ и в моделях Vision-Language-Action (VLA), степень их истинного понимания физических инструментов остаётся неопределённой. Чтобы устранить этот пробел, мы представляем PhysToolBench — первый бенчмарк, посвящённый оценке понимания физических инструментов MLLMs. Наш бенчмарк структурирован как набор данных Visual Question Answering (VQA), включающий более 1000 пар изображение-текст. Он оценивает способности на трёх различных уровнях сложности: (1) Распознавание инструмента: требует определения основной функции инструмента. (2) Понимание инструмента: проверяет способность уловить принципы работы инструмента. (3) Создание инструмента: ставит перед моделью задачу сконструировать новый инструмент из окружающих объектов, когда традиционные варианты недоступны. Наше всестороннее тестирование 32 MLLMs, включая проприетарные, открытые, специализированные воплощённые модели и базовые модели в VLA, выявило значительный дефицит в понимании инструментов. Кроме того, мы предоставляем детальный анализ и предлагаем предварительные решения. Код и набор данных доступны публично.
English
The ability to use, understand, and create tools is a hallmark of human
intelligence, enabling sophisticated interaction with the physical world. For
any general-purpose intelligent agent to achieve true versatility, it must also
master these fundamental skills. While modern Multimodal Large Language Models
(MLLMs) leverage their extensive common knowledge for high-level planning in
embodied AI and in downstream Vision-Language-Action (VLA) models, the extent
of their true understanding of physical tools remains unquantified. To bridge
this gap, we present PhysToolBench, the first benchmark dedicated to evaluating
the comprehension of physical tools by MLLMs. Our benchmark is structured as a
Visual Question Answering (VQA) dataset comprising over 1,000 image-text pairs.
It assesses capabilities across three distinct difficulty levels: (1) Tool
Recognition: Requiring the recognition of a tool's primary function. (2) Tool
Understanding: Testing the ability to grasp the underlying principles of a
tool's operation. (3) Tool Creation: Challenging the model to fashion a new
tool from surrounding objects when conventional options are unavailable. Our
comprehensive evaluation of 32 MLLMs-spanning proprietary, open-source,
specialized embodied, and backbones in VLAs-reveals a significant deficiency in
tool understanding. Furthermore, we provide an in-depth analysis and propose
preliminary solutions. Code and dataset are publicly available.