MCP-AgentBench: Valutazione delle Prestazioni degli Agenti Linguistici nel Mondo Reale con Strumenti Mediati da MCP

Abstract

Il Model Context Protocol (MCP) si sta rapidamente affermando come uno standard aperto fondamentale, progettato per migliorare l'integrazione e l'interoperabilità tra agenti e strumenti, e si posiziona per sbloccare una nuova era di AI agentica potente, interconnessa e veramente utilitaria. Tuttavia, nonostante la crescente adozione di MCP, gli attuali benchmark spesso non riescono a catturare le prestazioni degli agenti nel mondo reale all'interno di questo nuovo paradigma, portando a una percezione distorta del loro vero valore operativo e a un'incapacità di differenziare in modo affidabile le competenze. Per colmare questa lacuna critica nella valutazione, introduciamo MCP-AgentBench — un benchmark completo specificamente progettato per valutare rigorosamente le capacità degli agenti linguistici nelle interazioni con strumenti mediate da MCP. I contributi principali di MCP-AgentBench includono: l'istituzione di un robusto testbed MCP composto da 33 server operativi con 188 strumenti distinti; lo sviluppo di un benchmark che presenta 600 query progettate sistematicamente distribuite in 6 categorie distinte con vari livelli di complessità di interazione; e l'introduzione di MCP-Eval, una nuova metodologia di valutazione orientata ai risultati che privilegia il successo delle attività nel mondo reale. Attraverso una valutazione empirica estensiva dei principali agenti linguistici, forniamo approfondimenti fondamentali. MCP-AgentBench mira a dotare la comunità di ricerca di un framework standardizzato e affidabile per costruire, validare e far progredire agenti in grado di sfruttare appieno i benefici trasformativi di MCP, accelerando così il progresso verso sistemi di AI veramente capaci e interoperabili.

English

The Model Context Protocol (MCP) is rapidly emerging as a pivotal open standard, designed to enhance agent-tool integration and interoperability, and is positioned to unlock a new era of powerful, interconnected, and genuinely utilitarian agentic AI. However, despite MCP's growing adoption, existing benchmarks often fail to capture real-world agent performance within this new paradigm, leading to a distorted perception of their true operational value and an inability to reliably differentiate proficiencies. To bridge this critical evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark specifically engineered to rigorously assess language agent capabilities in MCP-mediated tool interactions. Core contributions of MCP-AgentBench include: the establishment of a robust MCP testbed comprising 33 operational servers with 188 distinct tools; the development of a benchmark featuring 600 systematically designed queries distributed across 6 distinct categories of varying interaction complexity; and the introduction of MCP-Eval, a novel outcome-oriented evaluation methodology prioritizing real-world task success. Through extensive empirical evaluation of leading language agents, we provide foundational insights. MCP-AgentBench aims to equip the research community with a standardized and reliable framework to build, validate, and advance agents capable of fully leveraging MCP's transformative benefits, thereby accelerating progress toward truly capable and interoperable AI systems.

MCP-AgentBench: Valutazione delle Prestazioni degli Agenti Linguistici nel Mondo Reale con Strumenti Mediati da MCP

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

Abstract

Support