ChatPaper.aiChatPaper

MCP-Bench : Outil de référencement pour les agents LLM utilisant des outils avec des tâches complexes du monde réel via des serveurs MCP

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

August 28, 2025
papers.authors: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI

papers.abstract

Nous présentons MCP-Bench, un benchmark pour évaluer les grands modèles de langage (LLMs) sur des tâches réalistes et multi-étapes qui nécessitent l'utilisation d'outils, la coordination inter-outils, le contrôle précis des paramètres, ainsi que la planification et le raisonnement pour résoudre des problèmes. Basé sur le protocole Model Context Protocol (MCP), MCP-Bench connecte les LLMs à 28 serveurs MCP actifs et représentatifs, couvrant 250 outils dans des domaines tels que la finance, les voyages, le calcul scientifique et la recherche académique. Contrairement aux benchmarks précédents basés sur des API, chaque serveur MCP fournit un ensemble d'outils complémentaires conçus pour fonctionner ensemble, permettant la construction de tâches authentiques et multi-étapes avec un riche couplage entrée-sortie. Les tâches de MCP-Bench testent la capacité des agents à récupérer les outils pertinents à partir d'instructions floues sans noms d'outils explicites, à planifier des trajectoires d'exécution multi-sauts pour des objectifs complexes, à ancrer les réponses dans les sorties intermédiaires des outils, et à orchestrer des workflows inter-domaines - des capacités insuffisamment évaluées par les benchmarks existants qui reposent sur des spécifications d'outils explicites, des workflows peu profonds en quelques étapes, et des opérations isolées dans des domaines spécifiques. Nous proposons un cadre d'évaluation multidimensionnel couvrant la compréhension et l'utilisation des schémas au niveau des outils, la planification au niveau des trajectoires, et l'achèvement des tâches. Les expériences sur 20 LLMs avancés révèlent des défis persistants dans MCP-Bench. Code et données : https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.
PDF444August 29, 2025