MCP-Bench: Benchmarking von Werkzeugnutzenden LLM-Agenten mit komplexen realen Aufgaben über MCP-Server
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
August 28, 2025
papers.authors: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI
papers.abstract
Wir stellen MCP-Bench vor, einen Benchmark zur Bewertung großer Sprachmodelle (LLMs) anhand realistischer, mehrstufiger Aufgaben, die den Einsatz von Werkzeugen, die Koordination zwischen Werkzeugen, präzise Parametersteuerung sowie Planungs- und Denkfähigkeiten zur Lösung von Aufgaben erfordern. Basierend auf dem Model Context Protocol (MCP) verbindet MCP-Bench LLMs mit 28 repräsentativen, aktiven MCP-Servern, die 250 Werkzeuge in Bereichen wie Finanzen, Reisen, wissenschaftliches Rechnen und akademische Suche abdecken. Im Gegensatz zu früheren API-basierten Benchmarks bietet jeder MCP-Server eine Reihe komplementärer Werkzeuge, die darauf ausgelegt sind, zusammenzuarbeiten, wodurch die Konstruktion authentischer, mehrstufiger Aufgaben mit reichhaltiger Ein- und Ausgabekopplung ermöglicht wird. Die Aufgaben in MCP-Bench testen die Fähigkeit von Agenten, relevante Werkzeuge aus vagen Anweisungen ohne explizite Werkzeugnamen abzurufen, mehrstufige Ausführungspfade für komplexe Ziele zu planen, Antworten in Zwischenergebnissen von Werkzeugen zu verankern und domänenübergreifende Workflows zu orchestrieren – Fähigkeiten, die von bestehenden Benchmarks, die sich auf explizite Werkzeugspezifikationen, flache, wenige Schritte umfassende Workflows und isolierte Domänenoperationen stützen, nicht ausreichend bewertet werden. Wir schlagen ein vielschichtiges Bewertungsframework vor, das das Verständnis und die Nutzung von Werkzeugschemata auf Werkzeugebene, die Planung auf Trajektorienebene und die Aufgabenabwicklung abdeckt. Experimente mit 20 fortschrittlichen LLMs offenbaren anhaltende Herausforderungen in MCP-Bench. Code und Daten: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models
(LLMs) on realistic, multi-step tasks that demand tool use, cross-tool
coordination, precise parameter control, and planning/reasoning for solving
tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28
representative live MCP servers spanning 250 tools across domains such as
finance, traveling, scientific computing, and academic search. Unlike prior
API-based benchmarks, each MCP server provides a set of complementary tools
designed to work together, enabling the construction of authentic, multi-step
tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability
to retrieve relevant tools from fuzzy instructions without explicit tool names,
plan multi-hop execution trajectories for complex objectives, ground responses
in intermediate tool outputs, and orchestrate cross-domain workflows -
capabilities not adequately evaluated by existing benchmarks that rely on
explicit tool specifications, shallow few-step workflows, and isolated domain
operations. We propose a multi-faceted evaluation framework covering tool-level
schema understanding and usage, trajectory-level planning, and task completion.
Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code
and data: https://github.com/Accenture/mcp-bench.