MCPMark: Een Benchmark voor het Stress-Testen van Realistische en Uitgebreide MCP's
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
Auteurs: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
Samenvatting
MCP standaardiseert hoe LLM's interageren met externe systemen, en vormt daarmee de basis voor algemene agents. Bestaande MCP-benchmarks blijven echter beperkt in scope: ze richten zich op taken die vooral lezen vereisen of taken met beperkte interactiediepte, en slagen er niet in de complexiteit en realiteit van workflows uit de praktijk te vatten. Om deze kloof te dichten, stellen we MCPMark voor, een benchmark die is ontworpen om het gebruik van MCP op een realistischer en uitgebreidere manier te evalueren. Het bestaat uit 127 hoogwaardige taken die in samenwerking met domeinexperts en AI-agents zijn ontwikkeld. Elke taak begint met een zorgvuldig samengestelde initiële staat en bevat een programmatisch script voor automatische verificatie. Deze taken vereisen rijkere en meer diverse interacties met de omgeving, waarbij een breed scala aan create, read, update en delete (CRUD) operaties betrokken is. We voeren een uitgebreide evaluatie uit van state-of-the-art LLM's met behulp van een minimaal agentframework dat opereert in een tool-calling loop. Empirische resultaten laten zien dat het best presterende model, gpt-5-medium, slechts 52,56\% pass@1 en 33,86\% pass^4 behaalt, terwijl andere algemeen erkende sterke modellen, waaronder claude-sonnet-4 en o3, onder de 30\% pass@1 en 15\% pass^4 blijven. Gemiddeld hebben LLM's 16,2 uitvoeringsrondes en 17,4 tool calls per taak nodig, wat aanzienlijk hoger is dan in eerdere MCP-benchmarks en de stresstestnatuur van MCPMark benadrukt.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.