ChatPaper.aiChatPaper

MCP-AgentBench: MCP-매개 도구를 활용한 현실 세계 언어 에이전트 성능 평가

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

September 10, 2025
저자: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI

초록

모델 컨텍스트 프로토콜(MCP)은 에이전트-도구 통합 및 상호 운용성을 강화하기 위해 설계된 핵심적인 개방형 표준으로 빠르게 부상하고 있으며, 강력하고 상호 연결된 진정으로 실용적인 에이전트 AI의 새로운 시대를 열 것으로 기대되고 있습니다. 그러나 MCP의 채택이 증가함에도 불구하고, 기존 벤치마크는 종종 이 새로운 패러다임 내에서 실제 에이전트 성능을 제대로 반영하지 못하여, 그들의 진정한 운영 가치에 대한 왜곡된 인식과 능력 차이를 신뢰할 수 있게 구분하지 못하는 문제를 야기하고 있습니다. 이러한 중요한 평가 격차를 해소하기 위해, 우리는 MCP-에이전트벤치(MCP-AgentBench)를 소개합니다. 이는 MCP 매개 도구 상호작용에서 언어 에이전트의 능력을 엄격하게 평가하기 위해 특별히 설계된 포괄적인 벤치마크입니다. MCP-에이전트벤치의 주요 기여 사항은 다음과 같습니다: 188개의 독특한 도구를 갖춘 33개의 운영 서버로 구성된 견고한 MCP 테스트베드 구축; 상호작용 복잡도가 다양한 6개의 범주에 걸쳐 체계적으로 설계된 600개의 쿼리로 구성된 벤치마크 개발; 그리고 실제 작업 성공을 우선시하는 새로운 결과 지향적 평가 방법론인 MCP-Eval의 도입. 선도적인 언어 에이전트에 대한 광범위한 실증적 평가를 통해, 우리는 기초적인 통찰을 제공합니다. MCP-에이전트벤치는 연구 커뮤니티에 MCP의 변혁적인 이점을 완전히 활용할 수 있는 에이전트를 구축, 검증 및 발전시키기 위한 표준화되고 신뢰할 수 있는 프레임워크를 제공함으로써, 진정으로 능력 있고 상호 운용 가능한 AI 시스템으로의 진전을 가속화하고자 합니다.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open standard, designed to enhance agent-tool integration and interoperability, and is positioned to unlock a new era of powerful, interconnected, and genuinely utilitarian agentic AI. However, despite MCP's growing adoption, existing benchmarks often fail to capture real-world agent performance within this new paradigm, leading to a distorted perception of their true operational value and an inability to reliably differentiate proficiencies. To bridge this critical evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark specifically engineered to rigorously assess language agent capabilities in MCP-mediated tool interactions. Core contributions of MCP-AgentBench include: the establishment of a robust MCP testbed comprising 33 operational servers with 188 distinct tools; the development of a benchmark featuring 600 systematically designed queries distributed across 6 distinct categories of varying interaction complexity; and the introduction of MCP-Eval, a novel outcome-oriented evaluation methodology prioritizing real-world task success. Through extensive empirical evaluation of leading language agents, we provide foundational insights. MCP-AgentBench aims to equip the research community with a standardized and reliable framework to build, validate, and advance agents capable of fully leveraging MCP's transformative benefits, thereby accelerating progress toward truly capable and interoperable AI systems.
PDF153September 15, 2025