MCP-AgentBench: Valutazione delle Prestazioni degli Agenti Linguistici nel Mondo Reale con Strumenti Mediati da MCP
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
September 10, 2025
Autori: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI
Abstract
Il Model Context Protocol (MCP) si sta rapidamente affermando come uno standard aperto fondamentale, progettato per migliorare l'integrazione e l'interoperabilità tra agenti e strumenti, e si posiziona per sbloccare una nuova era di AI agentica potente, interconnessa e veramente utilitaria. Tuttavia, nonostante la crescente adozione di MCP, gli attuali benchmark spesso non riescono a catturare le prestazioni degli agenti nel mondo reale all'interno di questo nuovo paradigma, portando a una percezione distorta del loro vero valore operativo e a un'incapacità di differenziare in modo affidabile le competenze. Per colmare questa lacuna critica nella valutazione, introduciamo MCP-AgentBench — un benchmark completo specificamente progettato per valutare rigorosamente le capacità degli agenti linguistici nelle interazioni con strumenti mediate da MCP. I contributi principali di MCP-AgentBench includono: l'istituzione di un robusto testbed MCP composto da 33 server operativi con 188 strumenti distinti; lo sviluppo di un benchmark che presenta 600 query progettate sistematicamente distribuite in 6 categorie distinte con vari livelli di complessità di interazione; e l'introduzione di MCP-Eval, una nuova metodologia di valutazione orientata ai risultati che privilegia il successo delle attività nel mondo reale. Attraverso una valutazione empirica estensiva dei principali agenti linguistici, forniamo approfondimenti fondamentali. MCP-AgentBench mira a dotare la comunità di ricerca di un framework standardizzato e affidabile per costruire, validare e far progredire agenti in grado di sfruttare appieno i benefici trasformativi di MCP, accelerando così il progresso verso sistemi di AI veramente capaci e interoperabili.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open
standard, designed to enhance agent-tool integration and interoperability, and
is positioned to unlock a new era of powerful, interconnected, and genuinely
utilitarian agentic AI. However, despite MCP's growing adoption, existing
benchmarks often fail to capture real-world agent performance within this new
paradigm, leading to a distorted perception of their true operational value and
an inability to reliably differentiate proficiencies. To bridge this critical
evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark
specifically engineered to rigorously assess language agent capabilities in
MCP-mediated tool interactions. Core contributions of MCP-AgentBench include:
the establishment of a robust MCP testbed comprising 33 operational servers
with 188 distinct tools; the development of a benchmark featuring 600
systematically designed queries distributed across 6 distinct categories of
varying interaction complexity; and the introduction of MCP-Eval, a novel
outcome-oriented evaluation methodology prioritizing real-world task success.
Through extensive empirical evaluation of leading language agents, we provide
foundational insights. MCP-AgentBench aims to equip the research community with
a standardized and reliable framework to build, validate, and advance agents
capable of fully leveraging MCP's transformative benefits, thereby accelerating
progress toward truly capable and interoperable AI systems.