MCPMark: Un Benchmark per Testare in Modo Realistico e Completo gli MCP
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
Autori: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
Abstract
MCP standardizza il modo in cui i modelli linguistici di grandi dimensioni (LLM) interagiscono con sistemi esterni, costituendo la base per agenti generali. Tuttavia, gli attuali benchmark MCP rimangono limitati nell'ambito: si concentrano su attività con un'elevata componente di lettura o su compiti con una profondità di interazione limitata, e non riescono a catturare la complessità e il realismo dei flussi di lavoro del mondo reale. Per colmare questa lacuna, proponiamo MCPMark, un benchmark progettato per valutare l'uso di MCP in modo più realistico e completo. Esso consiste in 127 compiti di alta qualità creati in collaborazione da esperti di dominio e agenti di intelligenza artificiale. Ogni compito inizia con uno stato iniziale curato e include uno script programmatico per la verifica automatica. Questi compiti richiedono interazioni più ricche e diversificate con l'ambiente, coinvolgendo un'ampia gamma di operazioni di creazione, lettura, aggiornamento e cancellazione (CRUD). Eseguiamo una valutazione completa dei migliori LLM utilizzando un framework minimale per agenti che opera in un ciclo di chiamata di strumenti. I risultati empirici mostrano che il modello con le migliori prestazioni, gpt-5-medium, raggiunge solo il 52,56% di pass@1 e il 33,86% di pass^4, mentre altri modelli ampiamente considerati forti, tra cui claude-sonnet-4 e o3, si attestano al di sotto del 30% di pass@1 e del 15% di pass^4. In media, gli LLM richiedono 16,2 turni di esecuzione e 17,4 chiamate di strumenti per compito, superando significativamente quelli dei precedenti benchmark MCP e sottolineando la natura di stress test di MCPMark.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.