MCP-AgentBench: Avaliando o Desempenho de Agentes de Linguagem no Mundo Real com Ferramentas Mediadas por MCP
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
September 10, 2025
Autores: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI
Resumo
O Model Context Protocol (MCP) está emergindo rapidamente como um padrão aberto fundamental, projetado para aprimorar a integração e interoperabilidade entre agentes e ferramentas, e está posicionado para desbloquear uma nova era de IA agentiva poderosa, interconectada e genuinamente utilitária. No entanto, apesar da crescente adoção do MCP, os benchmarks existentes frequentemente falham em capturar o desempenho real dos agentes dentro desse novo paradigma, levando a uma percepção distorcida de seu verdadeiro valor operacional e à incapacidade de diferenciar de forma confiável as proficiências. Para preencher essa lacuna crítica de avaliação, introduzimos o MCP-AgentBench — um benchmark abrangente especificamente projetado para avaliar rigorosamente as capacidades de agentes de linguagem em interações mediadas por MCP. As principais contribuições do MCP-AgentBench incluem: a criação de um ambiente de teste robusto para MCP, composto por 33 servidores operacionais com 188 ferramentas distintas; o desenvolvimento de um benchmark com 600 consultas sistematicamente projetadas, distribuídas em 6 categorias distintas com complexidades variadas de interação; e a introdução do MCP-Eval, uma nova metodologia de avaliação orientada a resultados que prioriza o sucesso em tarefas do mundo real. Por meio de uma extensa avaliação empírica de agentes de linguagem líderes, fornecemos insights fundamentais. O MCP-AgentBench visa equipar a comunidade de pesquisa com um framework padronizado e confiável para construir, validar e avançar agentes capazes de aproveitar plenamente os benefícios transformadores do MCP, acelerando assim o progresso em direção a sistemas de IA verdadeiramente capazes e interoperáveis.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open
standard, designed to enhance agent-tool integration and interoperability, and
is positioned to unlock a new era of powerful, interconnected, and genuinely
utilitarian agentic AI. However, despite MCP's growing adoption, existing
benchmarks often fail to capture real-world agent performance within this new
paradigm, leading to a distorted perception of their true operational value and
an inability to reliably differentiate proficiencies. To bridge this critical
evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark
specifically engineered to rigorously assess language agent capabilities in
MCP-mediated tool interactions. Core contributions of MCP-AgentBench include:
the establishment of a robust MCP testbed comprising 33 operational servers
with 188 distinct tools; the development of a benchmark featuring 600
systematically designed queries distributed across 6 distinct categories of
varying interaction complexity; and the introduction of MCP-Eval, a novel
outcome-oriented evaluation methodology prioritizing real-world task success.
Through extensive empirical evaluation of leading language agents, we provide
foundational insights. MCP-AgentBench aims to equip the research community with
a standardized and reliable framework to build, validate, and advance agents
capable of fully leveraging MCP's transformative benefits, thereby accelerating
progress toward truly capable and interoperable AI systems.