MCPMark: Un punto de referencia para evaluar de manera exhaustiva y realista el MCP bajo condiciones de estrés
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
Autores: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
Resumen
MCP estandariza cómo los LLM interactúan con sistemas externos, formando la base para agentes generales. Sin embargo, los puntos de referencia existentes de MCP siguen siendo limitados en alcance: se centran en tareas con predominio de lectura o tareas con una profundidad de interacción reducida, y no logran capturar la complejidad y el realismo de los flujos de trabajo del mundo real. Para abordar esta brecha, proponemos MCPMark, un punto de referencia diseñado para evaluar el uso de MCP de una manera más realista y completa. Consiste en 127 tareas de alta calidad creadas de manera colaborativa por expertos en dominio y agentes de IA. Cada tarea comienza con un estado inicial cuidadosamente seleccionado e incluye un script programático para la verificación automática. Estas tareas exigen interacciones más ricas y diversas con el entorno, involucrando una amplia gama de operaciones de creación, lectura, actualización y eliminación (CRUD). Realizamos una evaluación exhaustiva de LLM de vanguardia utilizando un marco de agente mínimo que opera en un bucle de llamadas a herramientas. Los resultados empíricos muestran que el modelo con mejor rendimiento, gpt-5-medium, alcanza solo un 52.56\% en pass@1 y un 33.86\% en pass^4, mientras que otros modelos ampliamente reconocidos como fuertes, incluyendo claude-sonnet-4 y o3, se sitúan por debajo del 30\% en pass@1 y del 15\% en pass^4. En promedio, los LLM requieren 16.2 turnos de ejecución y 17.4 llamadas a herramientas por tarea, superando significativamente los de los puntos de referencia anteriores de MCP y destacando la naturaleza de prueba de estrés de MCPMark.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.