ChatPaper.aiChatPaper

MCP-Bench: Herramienta de Evaluación para Agentes de LLM que Utilizan Herramientas en Tareas Complejas del Mundo Real mediante Servidores MCP

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

August 28, 2025
Autores: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI

Resumen

Presentamos MCP-Bench, un punto de referencia para evaluar modelos de lenguaje de gran escala (LLMs) en tareas realistas de múltiples pasos que requieren el uso de herramientas, coordinación entre herramientas, control preciso de parámetros y planificación/razonamiento para resolver tareas. Construido sobre el Protocolo de Contexto de Modelo (MCP), MCP-Bench conecta LLMs a 28 servidores MCP en vivo representativos que abarcan 250 herramientas en dominios como finanzas, viajes, computación científica y búsqueda académica. A diferencia de los puntos de referencia basados en API anteriores, cada servidor MCP proporciona un conjunto de herramientas complementarias diseñadas para trabajar juntas, permitiendo la construcción de tareas auténticas de múltiples pasos con un rico acoplamiento de entrada-salida. Las tareas en MCP-Bench evalúan la capacidad de los agentes para recuperar herramientas relevantes a partir de instrucciones ambiguas sin nombres explícitos de herramientas, planificar trayectorias de ejecución de múltiples saltos para objetivos complejos, fundamentar respuestas en salidas intermedias de herramientas y orquestar flujos de trabajo entre dominios, capacidades que no son evaluadas adecuadamente por los puntos de referencia existentes que dependen de especificaciones explícitas de herramientas, flujos de trabajo superficiales de pocos pasos y operaciones aisladas en dominios. Proponemos un marco de evaluación multifacético que cubre la comprensión y el uso de esquemas a nivel de herramienta, la planificación a nivel de trayectoria y la finalización de tareas. Los experimentos con 20 LLMs avanzados revelan desafíos persistentes en MCP-Bench. Código y datos: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.
PDF444August 29, 2025