MCP-AgentBench: Bewertung der Leistung von Sprachagenten in der realen Welt mit MCP-vermittelten Werkzeugen
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
September 10, 2025
papers.authors: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI
papers.abstract
Das Model Context Protocol (MCP) etabliert sich zunehmend als ein zentraler offener Standard, der darauf abzielt, die Integration und Interoperabilität von Agenten und Werkzeugen zu verbessern, und ist dazu bestimmt, eine neue Ära leistungsstarker, vernetzter und wirklich nützlicher agentenbasierter KI einzuleiten. Trotz der wachsenden Verbreitung von MCP erfassen bestehende Benchmarks jedoch oft nicht die reale Leistung von Agenten innerhalb dieses neuen Paradigmas, was zu einer verzerrten Wahrnehmung ihres tatsächlichen operationellen Werts und einer mangelnden Fähigkeit führt, ihre Kompetenzen zuverlässig zu unterscheiden. Um diese kritische Bewertungslücke zu schließen, stellen wir MCP-AgentBench vor – einen umfassenden Benchmark, der speziell entwickelt wurde, um die Fähigkeiten von Sprachagenten in MCP-vermittelten Werkzeuginteraktionen rigoros zu bewerten. Zu den Kernbeiträgen von MCP-AgentBench gehören: die Einrichtung eines robusten MCP-Testbeds, das 33 operative Server mit 188 verschiedenen Werkzeugen umfasst; die Entwicklung eines Benchmarks mit 600 systematisch gestalteten Anfragen, die über 6 verschiedene Kategorien mit unterschiedlicher Interaktionskomplexität verteilt sind; und die Einführung von MCP-Eval, einer neuartigen ergebnisorientierten Bewertungsmethodik, die den Erfolg bei realen Aufgaben priorisiert. Durch umfangreiche empirische Bewertungen führender Sprachagenten liefern wir grundlegende Erkenntnisse. MCP-AgentBench zielt darauf ab, der Forschungsgemeinschaft ein standardisiertes und zuverlässiges Framework an die Hand zu geben, um Agenten zu entwickeln, zu validieren und voranzutreiben, die in der Lage sind, die transformativen Vorteile von MCP voll auszuschöpfen, und so den Fortschritt hin zu wirklich leistungsfähigen und interoperablen KI-Systemen zu beschleunigen.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open
standard, designed to enhance agent-tool integration and interoperability, and
is positioned to unlock a new era of powerful, interconnected, and genuinely
utilitarian agentic AI. However, despite MCP's growing adoption, existing
benchmarks often fail to capture real-world agent performance within this new
paradigm, leading to a distorted perception of their true operational value and
an inability to reliably differentiate proficiencies. To bridge this critical
evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark
specifically engineered to rigorously assess language agent capabilities in
MCP-mediated tool interactions. Core contributions of MCP-AgentBench include:
the establishment of a robust MCP testbed comprising 33 operational servers
with 188 distinct tools; the development of a benchmark featuring 600
systematically designed queries distributed across 6 distinct categories of
varying interaction complexity; and the introduction of MCP-Eval, a novel
outcome-oriented evaluation methodology prioritizing real-world task success.
Through extensive empirical evaluation of leading language agents, we provide
foundational insights. MCP-AgentBench aims to equip the research community with
a standardized and reliable framework to build, validate, and advance agents
capable of fully leveraging MCP's transformative benefits, thereby accelerating
progress toward truly capable and interoperable AI systems.