ChatPaper.aiChatPaper

MCP-Bench: Benchmarkingtool voor LLM-agents met complexe real-world taken via MCP-servers

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

August 28, 2025
Auteurs: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI

Samenvatting

We introduceren MCP-Bench, een benchmark voor het evalueren van grote taalmodellen (LLMs) op realistische, meerstaps taken die het gebruik van tools, coördinatie tussen tools, precieze parametercontrole en planning/redeneren vereisen om taken op te lossen. Gebouwd op het Model Context Protocol (MCP), verbindt MCP-Bench LLMs met 28 representatieve live MCP-servers die 250 tools omvatten in domeinen zoals financiën, reizen, wetenschappelijk rekenen en academisch zoeken. In tegenstelling tot eerdere API-gebaseerde benchmarks, biedt elke MCP-server een set complementaire tools die ontworpen zijn om samen te werken, waardoor de constructie van authentieke, meerstaps taken met rijke input-output koppeling mogelijk wordt. Taken in MCP-Bench testen het vermogen van agents om relevante tools te halen uit vage instructies zonder expliciete toolnamen, meerstaps uitvoeringstrajecten te plannen voor complexe doelen, reacties te verankeren in tussenliggende tooloutputs en domeinoverschrijdende workflows te orkestreren - vaardigheden die niet adequaat worden geëvalueerd door bestaande benchmarks die vertrouwen op expliciete toolspecificaties, ondiepe weinigstaps workflows en geïsoleerde domeinoperaties. We stellen een veelzijdig evaluatiekader voor dat toolniveau schema-begrip en -gebruik, trajectniveau planning en taakvoltooiing omvat. Experimenten met 20 geavanceerde LLMs onthullen aanhoudende uitdagingen in MCP-Bench. Code en data: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.
PDF635August 29, 2025