ChatPaper.aiChatPaper

MCPMark: 현실적이고 포괄적인 MCP 스트레스 테스트를 위한 벤치마크

MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

September 28, 2025
저자: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh
cs.AI

초록

MCP는 대형 언어 모델(LLM)이 외부 시스템과 상호작용하는 방식을 표준화하여 일반 에이전트의 기반을 형성합니다. 그러나 기존 MCP 벤치마크는 범위가 제한적입니다: 읽기 위주의 작업이나 상호작용 깊이가 제한된 작업에 초점을 맞추며, 실제 워크플로우의 복잡성과 현실성을 충분히 반영하지 못합니다. 이러한 격차를 해결하기 위해, 우리는 MCP 사용을 보다 현실적이고 포괄적으로 평가하기 위한 벤치마크인 MCPMark를 제안합니다. MCPMark는 도메인 전문가와 AI 에이전트가 협력하여 만든 127개의 고품질 작업으로 구성됩니다. 각 작업은 선별된 초기 상태로 시작하며 자동 검증을 위한 프로그래밍 스크립트를 포함합니다. 이러한 작업은 환경과의 더 풍부하고 다양한 상호작용을 요구하며, 생성, 읽기, 업데이트, 삭제(CRUD) 작업을 광범위하게 포함합니다. 우리는 도구 호출 루프에서 작동하는 최소한의 에이전트 프레임워크를 사용하여 최첨단 LLM에 대한 포괄적인 평가를 수행했습니다. 실험 결과, 최고 성능을 보인 모델인 gpt-5-medium은 pass@1에서 52.56%, pass^4에서 33.86%에 그쳤으며, claude-sonnet-4와 o3를 포함한 다른 강력한 모델들은 pass@1에서 30%, pass^4에서 15% 미만의 성적을 기록했습니다. 평균적으로, LLM은 작업당 16.2회의 실행 턴과 17.4회의 도구 호출을 필요로 하며, 이는 이전 MCP 벤치마크를 크게 초과하여 MCPMark의 스트레스 테스트 특성을 강조합니다.
English
MCP standardizes how LLMs interact with external systems, forming the foundation for general agents. However, existing MCP benchmarks remain narrow in scope: they focus on read-heavy tasks or tasks with limited interaction depth, and fail to capture the complexity and realism of real-world workflows. To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP use in a more realistic and comprehensive manner. It consists of 127 high-quality tasks collaboratively created by domain experts and AI agents. Each task begins with a curated initial state and includes a programmatic script for automatic verification. These tasks demand richer and more diverse interactions with the environment, involving a broad range of create, read, update, and delete (CRUD) operations. We conduct a comprehensive evaluation of cutting-edge LLMs using a minimal agent framework that operates in a tool-calling loop. Empirical results show that the best-performing model, gpt-5-medium, reaches only 52.56\% pass@1 and 33.86\% pass^4, while other widely regarded strong models, including claude-sonnet-4 and o3, fall below 30\% pass@1 and 15\% pass^4. On average, LLMs require 16.2 execution turns and 17.4 tool calls per task, significantly surpassing those in previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.
PDF141October 1, 2025