MCP-AgentBench: Evaluatie van de prestaties van taalagentschappen in de echte wereld met MCP-gemedieerde tools
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
September 10, 2025
Auteurs: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI
Samenvatting
Het Model Context Protocol (MCP) ontwikkelt zich snel als een cruciaal open standaard, ontworpen om de integratie en interoperabiliteit van agenten en tools te verbeteren, en is gepositioneerd om een nieuw tijdperk in te luiden van krachtige, onderling verbonden en echt nuttige agent-gebaseerde AI. Ondanks de groeiende adoptie van MCP slagen bestaande benchmarks er vaak niet in om de prestaties van agenten in deze nieuwe paradigma in de praktijk vast te leggen, wat leidt tot een vertekend beeld van hun werkelijke operationele waarde en een onvermogen om vaardigheden betrouwbaar te onderscheiden. Om deze kritieke evaluatiekloof te overbruggen, introduceren we MCP-AgentBench -- een uitgebreide benchmark die specifiek is ontwikkeld om de capaciteiten van taalagenten in MCP-gemedieerde toolinteracties rigoureus te beoordelen. Kernbijdragen van MCP-AgentBench omvatten: de oprichting van een robuuste MCP-testomgeving bestaande uit 33 operationele servers met 188 verschillende tools; de ontwikkeling van een benchmark met 600 systematisch ontworpen queries verdeeld over 6 verschillende categorieën met variërende interactiecomplexiteit; en de introductie van MCP-Eval, een nieuwe resultaatgerichte evaluatiemethodologie die prioriteit geeft aan het succes van taken in de praktijk. Door uitgebreide empirische evaluatie van toonaangevende taalagenten bieden we fundamentele inzichten. MCP-AgentBench heeft als doel de onderzoeksgemeenschap te voorzien van een gestandaardiseerd en betrouwbaar raamwerk om agenten te bouwen, valideren en verder te ontwikkelen die in staat zijn om de transformerende voordelen van MCP volledig te benutten, waardoor de vooruitgang naar echt capabele en interoperabele AI-systemen wordt versneld.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open
standard, designed to enhance agent-tool integration and interoperability, and
is positioned to unlock a new era of powerful, interconnected, and genuinely
utilitarian agentic AI. However, despite MCP's growing adoption, existing
benchmarks often fail to capture real-world agent performance within this new
paradigm, leading to a distorted perception of their true operational value and
an inability to reliably differentiate proficiencies. To bridge this critical
evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark
specifically engineered to rigorously assess language agent capabilities in
MCP-mediated tool interactions. Core contributions of MCP-AgentBench include:
the establishment of a robust MCP testbed comprising 33 operational servers
with 188 distinct tools; the development of a benchmark featuring 600
systematically designed queries distributed across 6 distinct categories of
varying interaction complexity; and the introduction of MCP-Eval, a novel
outcome-oriented evaluation methodology prioritizing real-world task success.
Through extensive empirical evaluation of leading language agents, we provide
foundational insights. MCP-AgentBench aims to equip the research community with
a standardized and reliable framework to build, validate, and advance agents
capable of fully leveraging MCP's transformative benefits, thereby accelerating
progress toward truly capable and interoperable AI systems.