MCP-AgentBench: Evaluación del Rendimiento de Agentes de Lenguaje en Escenarios del Mundo Real con Herramientas Mediadas por MCP
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
September 10, 2025
Autores: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI
Resumen
El Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) está surgiendo rápidamente como un estándar abierto fundamental, diseñado para mejorar la integración e interoperabilidad entre agentes y herramientas, y está posicionado para desbloquear una nueva era de IA agentiva potente, interconectada y genuinamente utilitaria. Sin embargo, a pesar de la creciente adopción del MCP, los puntos de referencia existentes a menudo no logran capturar el rendimiento de los agentes en escenarios del mundo real dentro de este nuevo paradigma, lo que lleva a una percepción distorsionada de su verdadero valor operativo y a una incapacidad para diferenciar de manera confiable sus competencias. Para cerrar esta brecha crítica de evaluación, presentamos MCP-AgentBench: un punto de referencia integral diseñado específicamente para evaluar rigurosamente las capacidades de los agentes de lenguaje en interacciones con herramientas mediadas por el MCP. Las contribuciones principales de MCP-AgentBench incluyen: el establecimiento de un entorno de prueba robusto para el MCP que comprende 33 servidores operativos con 188 herramientas distintas; el desarrollo de un punto de referencia que incluye 600 consultas diseñadas sistemáticamente, distribuidas en 6 categorías distintas con diversos niveles de complejidad de interacción; y la introducción de MCP-Eval, una metodología de evaluación novedosa orientada a resultados que prioriza el éxito en tareas del mundo real. A través de una evaluación empírica extensa de los principales agentes de lenguaje, ofrecemos insights fundamentales. MCP-AgentBench tiene como objetivo proporcionar a la comunidad investigadora un marco estandarizado y confiable para construir, validar y avanzar agentes capaces de aprovechar plenamente los beneficios transformadores del MCP, acelerando así el progreso hacia sistemas de IA verdaderamente capaces e interoperables.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open
standard, designed to enhance agent-tool integration and interoperability, and
is positioned to unlock a new era of powerful, interconnected, and genuinely
utilitarian agentic AI. However, despite MCP's growing adoption, existing
benchmarks often fail to capture real-world agent performance within this new
paradigm, leading to a distorted perception of their true operational value and
an inability to reliably differentiate proficiencies. To bridge this critical
evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark
specifically engineered to rigorously assess language agent capabilities in
MCP-mediated tool interactions. Core contributions of MCP-AgentBench include:
the establishment of a robust MCP testbed comprising 33 operational servers
with 188 distinct tools; the development of a benchmark featuring 600
systematically designed queries distributed across 6 distinct categories of
varying interaction complexity; and the introduction of MCP-Eval, a novel
outcome-oriented evaluation methodology prioritizing real-world task success.
Through extensive empirical evaluation of leading language agents, we provide
foundational insights. MCP-AgentBench aims to equip the research community with
a standardized and reliable framework to build, validate, and advance agents
capable of fully leveraging MCP's transformative benefits, thereby accelerating
progress toward truly capable and interoperable AI systems.