MCP-AgentBench: MCP媒介ツールを用いた実世界言語エージェントの性能評価
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
September 10, 2025
著者: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI
要旨
モデルコンテキストプロトコル(MCP)は、エージェントとツールの統合および相互運用性を強化するために設計された重要なオープンスタンダードとして急速に台頭しており、強力で相互接続された真に実用的なエージェントAIの新時代を切り開く位置づけにあります。しかし、MCPの採用が進む一方で、既存のベンチマークはこの新しいパラダイムにおける実世界のエージェント性能を十分に捉えられず、その真の運用価値に対する歪んだ認識や、能力の違いを確実に区別できない状況を引き起こしています。この重要な評価ギャップを埋めるため、我々はMCP-AgentBenchを導入します。これは、MCPを介したツール相互作用における言語エージェントの能力を厳密に評価するために特別に設計された包括的なベンチマークです。MCP-AgentBenchの主な貢献は以下の通りです:33の運用サーバーと188の異なるツールからなる堅牢なMCPテストベッドの確立、6つの異なるカテゴリーにわたる600の体系的に設計されたクエリを含むベンチマークの開発、そして実世界のタスク成功を優先する新しい結果指向の評価手法MCP-Evalの導入です。主要な言語エージェントに対する広範な実証評価を通じて、基礎的な洞察を提供します。MCP-AgentBenchは、研究コミュニティに標準化された信頼性の高いフレームワークを提供し、MCPの変革的な利点を完全に活用できるエージェントを構築、検証、進化させることで、真に有能で相互運用可能なAIシステムへの進歩を加速することを目指しています。
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open
standard, designed to enhance agent-tool integration and interoperability, and
is positioned to unlock a new era of powerful, interconnected, and genuinely
utilitarian agentic AI. However, despite MCP's growing adoption, existing
benchmarks often fail to capture real-world agent performance within this new
paradigm, leading to a distorted perception of their true operational value and
an inability to reliably differentiate proficiencies. To bridge this critical
evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark
specifically engineered to rigorously assess language agent capabilities in
MCP-mediated tool interactions. Core contributions of MCP-AgentBench include:
the establishment of a robust MCP testbed comprising 33 operational servers
with 188 distinct tools; the development of a benchmark featuring 600
systematically designed queries distributed across 6 distinct categories of
varying interaction complexity; and the introduction of MCP-Eval, a novel
outcome-oriented evaluation methodology prioritizing real-world task success.
Through extensive empirical evaluation of leading language agents, we provide
foundational insights. MCP-AgentBench aims to equip the research community with
a standardized and reliable framework to build, validate, and advance agents
capable of fully leveraging MCP's transformative benefits, thereby accelerating
progress toward truly capable and interoperable AI systems.