ChatPaper.aiChatPaper

MCP-Bench: Инструмент для тестирования LLM-агентов, использующих инструменты, на сложных реальных задачах через MCP-серверы

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

August 28, 2025
Авторы: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI

Аннотация

Мы представляем MCP-Bench — эталонный набор для оценки больших языковых моделей (LLM) на реалистичных многошаговых задачах, требующих использования инструментов, координации между ними, точного управления параметрами, а также планирования и рассуждений для решения задач. Основанный на Model Context Protocol (MCP), MCP-Bench подключает LLM к 28 репрезентативным активным MCP-серверам, охватывающим 250 инструментов в таких областях, как финансы, путешествия, научные вычисления и академический поиск. В отличие от предыдущих API-ориентированных эталонных наборов, каждый MCP-сервер предоставляет набор взаимодополняющих инструментов, предназначенных для совместной работы, что позволяет создавать аутентичные многошаговые задачи с богатой связью между входными и выходными данными. Задачи в MCP-Bench проверяют способность агентов извлекать релевантные инструменты из нечетких инструкций без явного указания их названий, планировать многошаговые траектории выполнения для сложных целей, основывать ответы на промежуточных выходах инструментов и координировать междоменные рабочие процессы — возможности, которые недостаточно оцениваются существующими эталонными наборами, полагающимися на явные спецификации инструментов, простые малошаговые рабочие процессы и изолированные операции в рамках одной области. Мы предлагаем многогранную систему оценки, охватывающую понимание и использование схем инструментов, планирование на уровне траекторий и выполнение задач. Эксперименты с 20 передовыми LLM выявили устойчивые трудности в MCP-Bench. Код и данные: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.
PDF444August 29, 2025