MCP-AgentBench: Evaluación del Rendimiento de Agentes de Lenguaje en Escenarios del Mundo Real con Herramientas Mediadas por MCP

Resumen

El Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) está surgiendo rápidamente como un estándar abierto fundamental, diseñado para mejorar la integración e interoperabilidad entre agentes y herramientas, y está posicionado para desbloquear una nueva era de IA agentiva potente, interconectada y genuinamente utilitaria. Sin embargo, a pesar de la creciente adopción del MCP, los puntos de referencia existentes a menudo no logran capturar el rendimiento de los agentes en escenarios del mundo real dentro de este nuevo paradigma, lo que lleva a una percepción distorsionada de su verdadero valor operativo y a una incapacidad para diferenciar de manera confiable sus competencias. Para cerrar esta brecha crítica de evaluación, presentamos MCP-AgentBench: un punto de referencia integral diseñado específicamente para evaluar rigurosamente las capacidades de los agentes de lenguaje en interacciones con herramientas mediadas por el MCP. Las contribuciones principales de MCP-AgentBench incluyen: el establecimiento de un entorno de prueba robusto para el MCP que comprende 33 servidores operativos con 188 herramientas distintas; el desarrollo de un punto de referencia que incluye 600 consultas diseñadas sistemáticamente, distribuidas en 6 categorías distintas con diversos niveles de complejidad de interacción; y la introducción de MCP-Eval, una metodología de evaluación novedosa orientada a resultados que prioriza el éxito en tareas del mundo real. A través de una evaluación empírica extensa de los principales agentes de lenguaje, ofrecemos insights fundamentales. MCP-AgentBench tiene como objetivo proporcionar a la comunidad investigadora un marco estandarizado y confiable para construir, validar y avanzar agentes capaces de aprovechar plenamente los beneficios transformadores del MCP, acelerando así el progreso hacia sistemas de IA verdaderamente capaces e interoperables.

English

The Model Context Protocol (MCP) is rapidly emerging as a pivotal open standard, designed to enhance agent-tool integration and interoperability, and is positioned to unlock a new era of powerful, interconnected, and genuinely utilitarian agentic AI. However, despite MCP's growing adoption, existing benchmarks often fail to capture real-world agent performance within this new paradigm, leading to a distorted perception of their true operational value and an inability to reliably differentiate proficiencies. To bridge this critical evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark specifically engineered to rigorously assess language agent capabilities in MCP-mediated tool interactions. Core contributions of MCP-AgentBench include: the establishment of a robust MCP testbed comprising 33 operational servers with 188 distinct tools; the development of a benchmark featuring 600 systematically designed queries distributed across 6 distinct categories of varying interaction complexity; and the introduction of MCP-Eval, a novel outcome-oriented evaluation methodology prioritizing real-world task success. Through extensive empirical evaluation of leading language agents, we provide foundational insights. MCP-AgentBench aims to equip the research community with a standardized and reliable framework to build, validate, and advance agents capable of fully leveraging MCP's transformative benefits, thereby accelerating progress toward truly capable and interoperable AI systems.

MCP-AgentBench: Evaluación del Rendimiento de Agentes de Lenguaje en Escenarios del Mundo Real con Herramientas Mediadas por MCP

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

Resumen

Support