MCP-Bench: Ferramenta de Benchmarking para Agentes de LLM que Utilizam Ferramentas em Tarefas Complexas do Mundo Real via Servidores MCP
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
August 28, 2025
Autores: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI
Resumo
Apresentamos o MCP-Bench, um benchmark para avaliar modelos de linguagem de grande escala (LLMs) em tarefas realistas e de múltiplas etapas que exigem o uso de ferramentas, coordenação entre ferramentas, controle preciso de parâmetros e planejamento/raciocínio para a resolução de tarefas. Construído sobre o Protocolo de Contexto de Modelo (MCP), o MCP-Bench conecta LLMs a 28 servidores MCP ativos e representativos, abrangendo 250 ferramentas em domínios como finanças, viagens, computação científica e busca acadêmica. Diferente de benchmarks anteriores baseados em APIs, cada servidor MCP oferece um conjunto de ferramentas complementares projetadas para funcionar em conjunto, permitindo a construção de tarefas autênticas de múltiplas etapas com acoplamento rico de entrada e saída. As tarefas no MCP-Bench testam a capacidade dos agentes de recuperar ferramentas relevantes a partir de instruções vagas sem nomes explícitos de ferramentas, planejar trajetórias de execução de múltiplos saltos para objetivos complexos, fundamentar respostas em saídas intermediárias de ferramentas e orquestrar fluxos de trabalho entre domínios — capacidades não adequadamente avaliadas por benchmarks existentes que dependem de especificações explícitas de ferramentas, fluxos de trabalho superficiais de poucas etapas e operações isoladas em domínios. Propomos um framework de avaliação multifacetado que abrange o entendimento e uso de esquemas em nível de ferramenta, planejamento em nível de trajetória e conclusão de tarefas. Experimentos com 20 LLMs avançados revelam desafios persistentes no MCP-Bench. Código e dados: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models
(LLMs) on realistic, multi-step tasks that demand tool use, cross-tool
coordination, precise parameter control, and planning/reasoning for solving
tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28
representative live MCP servers spanning 250 tools across domains such as
finance, traveling, scientific computing, and academic search. Unlike prior
API-based benchmarks, each MCP server provides a set of complementary tools
designed to work together, enabling the construction of authentic, multi-step
tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability
to retrieve relevant tools from fuzzy instructions without explicit tool names,
plan multi-hop execution trajectories for complex objectives, ground responses
in intermediate tool outputs, and orchestrate cross-domain workflows -
capabilities not adequately evaluated by existing benchmarks that rely on
explicit tool specifications, shallow few-step workflows, and isolated domain
operations. We propose a multi-faceted evaluation framework covering tool-level
schema understanding and usage, trajectory-level planning, and task completion.
Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code
and data: https://github.com/Accenture/mcp-bench.