TOBench: Задачно-ориентированный омнимодальный бенчмарк для агентов, использующих инструменты в реальном мире

Аннотация

Инструментальные агенты всё чаще проектируются для работы в реалистичных профессиональных процессах, где им необходимо интерпретировать мультимодальные входные данные, координировать внешние инструменты, проверять промежуточные артефакты и корректировать свои действия перед формированием конечного результата. Однако существующие бенчмарки зачастую оценивают использование инструментов, взаимодействие с компьютером и мультимодальные рассуждения изолированно, что создаёт разрыв между условиями тестирования и сквозным омни-модальным использованием инструментов в реальном мире. Для устранения этого разрыва мы представляем MM-ToolBench — бенчмарк и среду оценки для целеориентированного омни-модального применения инструментов. MM-ToolBench включает 100 исполняемых задач из двух макрокатегорий: «Клиентская поддержка» и «Интеллектуальное творчество», охватывая 20 подкатегорий и поддерживаемых 27 MCP-серверами с 324 инструментами. Ключевая особенность MM-ToolBench — замкнутая мультимодальная верификация: агенты должны выполнять инструменты, анализировать результирующие или преобразованные артефакты и самостоятельно исправлять ошибки, когда результаты не соответствуют требованиям задачи. Для масштабируемой и проверяемой оценки MM-ToolBench объединяет выполнение на основе MCP с целевыми обоснованными оценщиками и полуавтоматическим конвейером для обнаружения сценариев, инстанцирования задач, синтеза оценщиков и человеческой валидации. Эксперименты с 15 современными агентными моделями показывают, что MM-ToolBench остаётся крайне сложным: Claude Opus 4.6, часто считающийся одной из сильнейших моделей-агентов для программирования, достигает лишь 32,0% успешности выполнения задач, что значительно ниже 94,0% у человека. Мы видим MM-ToolBench как практическую основу для оценки и развития следующего поколения омни-модальных инструментальных агентов через замкнутую мультимодальную верификацию.

English

Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.