MCPMark: Бенчмарк для стресс-тестирования реалистичных и всесторонних MCP
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
September 28, 2025
Авторы: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI
Аннотация
MCP стандартизирует взаимодействие крупных языковых моделей (LLM) с внешними системами, формируя основу для универсальных агентов. Однако существующие бенчмарки MCP остаются узкими по охвату: они сосредоточены на задачах с преобладанием чтения или задачах с ограниченной глубиной взаимодействия и не учитывают сложность и реалистичность реальных рабочих процессов. Чтобы устранить этот пробел, мы предлагаем MCPMark — бенчмарк, разработанный для оценки использования MCP в более реалистичной и всесторонней манере. Он состоит из 127 высококачественных задач, созданных совместно экспертами в предметной области и ИИ-агентами. Каждая задача начинается с тщательно подготовленного начального состояния и включает программный скрипт для автоматической проверки. Эти задачи требуют более насыщенного и разнообразного взаимодействия с окружением, включая широкий спектр операций создания, чтения, обновления и удаления (CRUD). Мы проводим всестороннюю оценку передовых LLM с использованием минимального агентского фреймворка, работающего в цикле вызова инструментов. Эмпирические результаты показывают, что лучшая модель, gpt-5-medium, достигает лишь 52,56% pass@1 и 33,86% pass^4, в то время как другие широко признанные сильные модели, включая claude-sonnet-4 и o3, не превышают 30% pass@1 и 15% pass^4. В среднем LLM требуют 16,2 шагов выполнения и 17,4 вызовов инструментов на задачу, что значительно превосходит показатели в предыдущих бенчмарках MCP и подчеркивает стресс-тестирующий характер MCPMark.
English
MCP standardizes how LLMs interact with external systems, forming the
foundation for general agents. However, existing MCP benchmarks remain narrow
in scope: they focus on read-heavy tasks or tasks with limited interaction
depth, and fail to capture the complexity and realism of real-world workflows.
To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP
use in a more realistic and comprehensive manner. It consists of 127
high-quality tasks collaboratively created by domain experts and AI agents.
Each task begins with a curated initial state and includes a programmatic
script for automatic verification. These tasks demand richer and more diverse
interactions with the environment, involving a broad range of create, read,
update, and delete (CRUD) operations. We conduct a comprehensive evaluation of
cutting-edge LLMs using a minimal agent framework that operates in a
tool-calling loop. Empirical results show that the best-performing model,
gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other
widely regarded strong models, including claude-sonnet-4 and o3, fall below
30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution
turns and 17.4 tool calls per task, significantly surpassing those in
previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.