LiveMCPBench : Les agents peuvent-ils naviguer dans un océan d'outils MCP ?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
August 3, 2025
papers.authors: Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
papers.abstract
Avec le développement rapide du protocole de contexte de modèle (MCP), le nombre de serveurs MCP a dépassé les 10 000. Cependant, les benchmarks MCP existants se limitent à des configurations mono-serveur avec seulement quelques outils, entravant l'évaluation efficace des capacités des agents dans des scénarios réels à grande échelle. Pour pallier cette limitation, nous présentons LiveMCPBench, le premier benchmark complet comprenant 95 tâches réelles ancrées dans l'écosystème MCP, conçu pour évaluer les agents LLM à grande échelle sur divers serveurs. Pour soutenir un pipeline d'évaluation scalable et reproductible dans des environnements MCP à grande échelle, nous avons constitué LiveMCPTool, une collection diversifiée et facilement déployable de 70 serveurs MCP et 527 outils. De plus, nous introduisons LiveMCPEval, un framework LLM-as-a-Judge qui permet une évaluation automatisée et adaptative dans des environnements de tâches dynamiques et variables dans le temps, atteignant un accord de 81 % avec les évaluateurs humains. Enfin, nous proposons le MCP Copilot Agent, un agent multi-étapes qui achemine les outils pour une planification dynamique et exécute les outils pour l'interaction API à travers l'ensemble de la suite LiveMCPTool. Notre évaluation couvre 10 modèles leaders, le meilleur modèle (Claude-Sonnet-4) atteignant un taux de réussite de 78,95 %. Cependant, nous observons une grande variance de performance entre les modèles, et plusieurs modèles largement utilisés obtiennent de mauvais résultats dans les environnements complexes et riches en outils de LiveMCPBench. Globalement, LiveMCPBench offre le premier cadre unifié pour benchmarker les agents LLM dans des environnements MCP réalistes, riches en outils et dynamiques, posant une base solide pour une recherche scalable et reproductible sur les capacités des agents. Notre code et nos données seront disponibles publiquement à l'adresse https://icip-cas.github.io/LiveMCPBench.
English
With the rapid development of Model Context Protocol (MCP), the number of MCP
servers has surpassed 10,000. However, existing MCP benchmarks are limited to
single-server settings with only a few tools, hindering effective evaluation of
agent capabilities in large-scale, real-world scenarios. To address this
limitation, we present LiveMCPBench, the first comprehensive benchmark
comprising 95 real-world tasks grounded in the MCP ecosystem, designed to
evaluate LLM agents at scale across diverse servers. To support a scalable and
reproducible evaluation pipeline in large-scale MCP environments, we curate
LiveMCPTool, a diverse and readily deployable collection of 70 MCP servers and
527 tools. Furthermore, we introduce LiveMCPEval, an LLM-as-a-Judge framework
that enables automated and adaptive evaluation in dynamic, time-varying task
environments, achieving 81% agreement with human reviewers. Finally, we propose
the MCP Copilot Agent, a multi-step agent that routes tools for dynamic
planning and executes tools for API interaction across the entire LiveMCPTool
suite. Our evaluation covers 10 leading models, with the best-performing model
(Claude-Sonnet-4) reaching a 78.95% success rate. However, we observe large
performance variance across models, and several widely-used models perform
poorly in LiveMCPBench's complex, tool-rich environments. Overall, LiveMCPBench
offers the first unified framework for benchmarking LLM agents in realistic,
tool-rich, and dynamic MCP environments, laying a solid foundation for scalable
and reproducible research on agent capabilities. Our code and data will be
publicly available at https://icip-cas.github.io/LiveMCPBench.