MCPMark : Un benchmark pour tester de manière exhaustive et réaliste les MCP
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
papers.authors: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
papers.abstract
Le MCP standardise la manière dont les LLM interagissent avec les systèmes externes, formant ainsi la base des agents généraux. Cependant, les benchmarks MCP existants restent limités en portée : ils se concentrent sur des tâches principalement orientées lecture ou sur des interactions de faible profondeur, et ne parviennent pas à capturer la complexité et le réalisme des workflows du monde réel. Pour combler cette lacune, nous proposons MCPMark, un benchmark conçu pour évaluer l'utilisation du MCP de manière plus réaliste et complète. Il se compose de 127 tâches de haute qualité, créées en collaboration par des experts du domaine et des agents d'IA. Chaque tâche commence par un état initial soigneusement préparé et inclut un script programmatique pour la vérification automatique. Ces tâches exigent des interactions plus riches et plus diversifiées avec l'environnement, impliquant une large gamme d'opérations de création, lecture, mise à jour et suppression (CRUD). Nous menons une évaluation approfondie des LLM de pointe en utilisant un cadre d'agent minimal qui fonctionne dans une boucle d'appel d'outils. Les résultats empiriques montrent que le modèle le plus performant, gpt-5-medium, atteint seulement 52,56 % de réussite en pass@1 et 33,86 % en pass^4, tandis que d'autres modèles largement reconnus comme puissants, notamment claude-sonnet-4 et o3, tombent en dessous de 30 % en pass@1 et 15 % en pass^4. En moyenne, les LLM nécessitent 16,2 tours d'exécution et 17,4 appels d'outils par tâche, dépassant significativement ceux des benchmarks MCP précédents et soulignant la nature de test de résistance de MCPMark.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.