LiveMCPBench : Les agents peuvent-ils naviguer dans un océan d'outils MCP ?

papers.abstract

Avec le développement rapide du protocole de contexte de modèle (MCP), le nombre de serveurs MCP a dépassé les 10 000. Cependant, les benchmarks MCP existants se limitent à des configurations mono-serveur avec seulement quelques outils, entravant l'évaluation efficace des capacités des agents dans des scénarios réels à grande échelle. Pour pallier cette limitation, nous présentons LiveMCPBench, le premier benchmark complet comprenant 95 tâches réelles ancrées dans l'écosystème MCP, conçu pour évaluer les agents LLM à grande échelle sur divers serveurs. Pour soutenir un pipeline d'évaluation scalable et reproductible dans des environnements MCP à grande échelle, nous avons constitué LiveMCPTool, une collection diversifiée et facilement déployable de 70 serveurs MCP et 527 outils. De plus, nous introduisons LiveMCPEval, un framework LLM-as-a-Judge qui permet une évaluation automatisée et adaptative dans des environnements de tâches dynamiques et variables dans le temps, atteignant un accord de 81 % avec les évaluateurs humains. Enfin, nous proposons le MCP Copilot Agent, un agent multi-étapes qui achemine les outils pour une planification dynamique et exécute les outils pour l'interaction API à travers l'ensemble de la suite LiveMCPTool. Notre évaluation couvre 10 modèles leaders, le meilleur modèle (Claude-Sonnet-4) atteignant un taux de réussite de 78,95 %. Cependant, nous observons une grande variance de performance entre les modèles, et plusieurs modèles largement utilisés obtiennent de mauvais résultats dans les environnements complexes et riches en outils de LiveMCPBench. Globalement, LiveMCPBench offre le premier cadre unifié pour benchmarker les agents LLM dans des environnements MCP réalistes, riches en outils et dynamiques, posant une base solide pour une recherche scalable et reproductible sur les capacités des agents. Notre code et nos données seront disponibles publiquement à l'adresse https://icip-cas.github.io/LiveMCPBench.

English

With the rapid development of Model Context Protocol (MCP), the number of MCP servers has surpassed 10,000. However, existing MCP benchmarks are limited to single-server settings with only a few tools, hindering effective evaluation of agent capabilities in large-scale, real-world scenarios. To address this limitation, we present LiveMCPBench, the first comprehensive benchmark comprising 95 real-world tasks grounded in the MCP ecosystem, designed to evaluate LLM agents at scale across diverse servers. To support a scalable and reproducible evaluation pipeline in large-scale MCP environments, we curate LiveMCPTool, a diverse and readily deployable collection of 70 MCP servers and 527 tools. Furthermore, we introduce LiveMCPEval, an LLM-as-a-Judge framework that enables automated and adaptive evaluation in dynamic, time-varying task environments, achieving 81% agreement with human reviewers. Finally, we propose the MCP Copilot Agent, a multi-step agent that routes tools for dynamic planning and executes tools for API interaction across the entire LiveMCPTool suite. Our evaluation covers 10 leading models, with the best-performing model (Claude-Sonnet-4) reaching a 78.95% success rate. However, we observe large performance variance across models, and several widely-used models perform poorly in LiveMCPBench's complex, tool-rich environments. Overall, LiveMCPBench offers the first unified framework for benchmarking LLM agents in realistic, tool-rich, and dynamic MCP environments, laying a solid foundation for scalable and reproducible research on agent capabilities. Our code and data will be publicly available at https://icip-cas.github.io/LiveMCPBench.

LiveMCPBench : Les agents peuvent-ils naviguer dans un océan d'outils MCP ?

LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

papers.abstract

Support