MCPMark: Ein Benchmark zur Belastungsprüfung realistischer und umfassender MCP-Anwendungen
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
papers.authors: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
papers.abstract
MCP standardisiert die Interaktion von LLMs mit externen Systemen und bildet die Grundlage für allgemeine Agenten. Allerdings sind bestehende MCP-Benchmarks in ihrem Umfang begrenzt: Sie konzentrieren sich auf leseintensive Aufgaben oder Aufgaben mit begrenzter Interaktionstiefe und erfassen nicht die Komplexität und Realitätsnähe realer Workflows. Um diese Lücke zu schließen, schlagen wir MCPMark vor, einen Benchmark, der die Nutzung von MCP auf realistischere und umfassendere Weise bewertet. Er besteht aus 127 hochwertigen Aufgaben, die gemeinsam von Domänenexperten und KI-Agenten erstellt wurden. Jede Aufgabe beginnt mit einem kuratierten Ausgangszustand und enthält ein programmatisches Skript zur automatischen Überprüfung. Diese Aufgaben erfordern reichhaltigere und vielfältigere Interaktionen mit der Umgebung, die eine breite Palette von Create-, Read-, Update- und Delete-Operationen (CRUD) umfassen. Wir führen eine umfassende Bewertung von modernsten LLMs durch, die auf einem minimalen Agenten-Framework basiert, das in einer Tool-Aufruf-Schleife arbeitet. Die empirischen Ergebnisse zeigen, dass das leistungsstärkste Modell, gpt-5-medium, nur 52,56 % pass@1 und 33,86 % pass^4 erreicht, während andere weitgehend als stark angesehene Modelle, einschließlich claude-sonnet-4 und o3, unter 30 % pass@1 und 15 % pass^4 fallen. Im Durchschnitt benötigen LLMs 16,2 Ausführungsrunden und 17,4 Tool-Aufrufe pro Aufgabe, was die Werte früherer MCP-Benchmarks deutlich übersteigt und den Stress-Test-Charakter von MCPMark unterstreicht.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.