MCP-Bench: MCPサーバーを用いた複雑な現実世界タスクに対するツール利用型LLMエージェントのベンチマーキングツール
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
August 28, 2025
著者: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI
要旨
我々はMCP-Benchを紹介する。これは、ツールの使用、ツール間の連携、精密なパラメータ制御、および課題解決のための計画/推論を必要とする現実的な多段階タスクにおいて、大規模言語モデル(LLM)を評価するためのベンチマークである。Model Context Protocol(MCP)に基づいて構築されたMCP-Benchは、LLMを28の代表的なライブMCPサーバーに接続し、金融、旅行、科学計算、学術検索などの分野にわたる250のツールを網羅している。従来のAPIベースのベンチマークとは異なり、各MCPサーバーは連携して動作するように設計された補完的なツールセットを提供し、豊富な入出力結合を伴う本格的な多段階タスクの構築を可能にする。MCP-Benchのタスクは、明示的なツール名なしに曖昧な指示から関連するツールを取得する能力、複雑な目的のためのマルチホップ実行軌跡を計画する能力、中間ツール出力に基づいて応答を接地する能力、およびクロスドメインワークフローを調整する能力をテストする。これらは、明示的なツール仕様、浅い数ステップのワークフロー、および孤立したドメイン操作に依存する既存のベンチマークでは十分に評価されていない能力である。我々は、ツールレベルのスキーマ理解と使用、軌跡レベルの計画、およびタスク完了をカバーする多面的な評価フレームワークを提案する。20の先進的なLLMを用いた実験により、MCP-Benchにおける持続的な課題が明らかになった。コードとデータはhttps://github.com/Accenture/mcp-benchで公開されている。
English
We introduce MCP-Bench, a benchmark for evaluating large language models
(LLMs) on realistic, multi-step tasks that demand tool use, cross-tool
coordination, precise parameter control, and planning/reasoning for solving
tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28
representative live MCP servers spanning 250 tools across domains such as
finance, traveling, scientific computing, and academic search. Unlike prior
API-based benchmarks, each MCP server provides a set of complementary tools
designed to work together, enabling the construction of authentic, multi-step
tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability
to retrieve relevant tools from fuzzy instructions without explicit tool names,
plan multi-hop execution trajectories for complex objectives, ground responses
in intermediate tool outputs, and orchestrate cross-domain workflows -
capabilities not adequately evaluated by existing benchmarks that rely on
explicit tool specifications, shallow few-step workflows, and isolated domain
operations. We propose a multi-faceted evaluation framework covering tool-level
schema understanding and usage, trajectory-level planning, and task completion.
Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code
and data: https://github.com/Accenture/mcp-bench.