ChatPaper.aiChatPaper

MCP-Bench: Strumento di Benchmarking per Agenti LLM che Utilizzano Strumenti con Compiti Complessi del Mondo Reale tramite Server MCP

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

August 28, 2025
Autori: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI

Abstract

Presentiamo MCP-Bench, un benchmark per valutare i grandi modelli linguistici (LLM) su compiti realistici e multi-step che richiedono l'uso di strumenti, il coordinamento tra strumenti, il controllo preciso dei parametri e la pianificazione/ragionamento per risolvere i compiti. Basato sul Model Context Protocol (MCP), MCP-Bench collega gli LLM a 28 server MCP live rappresentativi, che coprono 250 strumenti in domini come finanza, viaggi, calcolo scientifico e ricerca accademica. A differenza dei precedenti benchmark basati su API, ogni server MCP fornisce un insieme di strumenti complementari progettati per funzionare insieme, consentendo la costruzione di compiti autentici e multi-step con un ricco accoppiamento input-output. I compiti in MCP-Bench testano la capacità degli agenti di recuperare strumenti rilevanti da istruzioni vaghe senza nomi espliciti degli strumenti, pianificare traiettorie di esecuzione multi-hop per obiettivi complessi, ancorare le risposte agli output intermedi degli strumenti e orchestrare flussi di lavoro cross-domain - capacità non adeguatamente valutate dai benchmark esistenti che si basano su specifiche esplicite degli strumenti, flussi di lavoro pochi-step superficiali e operazioni di dominio isolate. Proponiamo un framework di valutazione multi-faccettato che copre la comprensione e l'uso dello schema a livello di strumento, la pianificazione a livello di traiettoria e il completamento del compito. Esperimenti su 20 LLM avanzati rivelano sfide persistenti in MCP-Bench. Codice e dati: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.
PDF635August 29, 2025