MCPMark: Um Benchmark para Testes de Estresse de MCP Realista e Abrangente
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
Autores: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
Resumo
O MCP padroniza como os LLMs interagem com sistemas externos, formando a base para agentes gerais. No entanto, os benchmarks existentes de MCP permanecem limitados em escopo: eles se concentram em tarefas com muita leitura ou tarefas com profundidade de interação limitada, e não conseguem capturar a complexidade e o realismo dos fluxos de trabalho do mundo real. Para abordar essa lacuna, propomos o MCPMark, um benchmark projetado para avaliar o uso do MCP de maneira mais realista e abrangente. Ele consiste em 127 tarefas de alta qualidade criadas colaborativamente por especialistas de domínio e agentes de IA. Cada tarefa começa com um estado inicial curado e inclui um script programático para verificação automática. Essas tarefas exigem interações mais ricas e diversas com o ambiente, envolvendo uma ampla gama de operações de criação, leitura, atualização e exclusão (CRUD). Realizamos uma avaliação abrangente de LLMs de ponta usando uma estrutura mínima de agente que opera em um loop de chamada de ferramentas. Os resultados empíricos mostram que o modelo de melhor desempenho, gpt-5-medium, alcança apenas 52,56% de pass@1 e 33,86% de pass^4, enquanto outros modelos amplamente reconhecidos como fortes, incluindo claude-sonnet-4 e o3, ficam abaixo de 30% de pass@1 e 15% de pass^4. Em média, os LLMs exigem 16,2 turnos de execução e 17,4 chamadas de ferramentas por tarefa, superando significativamente os benchmarks anteriores de MCP e destacando a natureza de teste de estresse do MCPMark.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.