ChatPaper.aiChatPaper

MCP-AgentBench: Avaliando o Desempenho de Agentes de Linguagem no Mundo Real com Ferramentas Mediadas por MCP

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

September 10, 2025
Autores: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI

Resumo

O Model Context Protocol (MCP) está emergindo rapidamente como um padrão aberto fundamental, projetado para aprimorar a integração e interoperabilidade entre agentes e ferramentas, e está posicionado para desbloquear uma nova era de IA agentiva poderosa, interconectada e genuinamente utilitária. No entanto, apesar da crescente adoção do MCP, os benchmarks existentes frequentemente falham em capturar o desempenho real dos agentes dentro desse novo paradigma, levando a uma percepção distorcida de seu verdadeiro valor operacional e à incapacidade de diferenciar de forma confiável as proficiências. Para preencher essa lacuna crítica de avaliação, introduzimos o MCP-AgentBench — um benchmark abrangente especificamente projetado para avaliar rigorosamente as capacidades de agentes de linguagem em interações mediadas por MCP. As principais contribuições do MCP-AgentBench incluem: a criação de um ambiente de teste robusto para MCP, composto por 33 servidores operacionais com 188 ferramentas distintas; o desenvolvimento de um benchmark com 600 consultas sistematicamente projetadas, distribuídas em 6 categorias distintas com complexidades variadas de interação; e a introdução do MCP-Eval, uma nova metodologia de avaliação orientada a resultados que prioriza o sucesso em tarefas do mundo real. Por meio de uma extensa avaliação empírica de agentes de linguagem líderes, fornecemos insights fundamentais. O MCP-AgentBench visa equipar a comunidade de pesquisa com um framework padronizado e confiável para construir, validar e avançar agentes capazes de aproveitar plenamente os benefícios transformadores do MCP, acelerando assim o progresso em direção a sistemas de IA verdadeiramente capazes e interoperáveis.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open standard, designed to enhance agent-tool integration and interoperability, and is positioned to unlock a new era of powerful, interconnected, and genuinely utilitarian agentic AI. However, despite MCP's growing adoption, existing benchmarks often fail to capture real-world agent performance within this new paradigm, leading to a distorted perception of their true operational value and an inability to reliably differentiate proficiencies. To bridge this critical evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark specifically engineered to rigorously assess language agent capabilities in MCP-mediated tool interactions. Core contributions of MCP-AgentBench include: the establishment of a robust MCP testbed comprising 33 operational servers with 188 distinct tools; the development of a benchmark featuring 600 systematically designed queries distributed across 6 distinct categories of varying interaction complexity; and the introduction of MCP-Eval, a novel outcome-oriented evaluation methodology prioritizing real-world task success. Through extensive empirical evaluation of leading language agents, we provide foundational insights. MCP-AgentBench aims to equip the research community with a standardized and reliable framework to build, validate, and advance agents capable of fully leveraging MCP's transformative benefits, thereby accelerating progress toward truly capable and interoperable AI systems.
PDF153September 15, 2025