LiveMCPBench: Können Agenten einen Ozean von MCP-Tools navigieren?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
August 3, 2025
papers.authors: Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
papers.abstract
Mit der rasanten Entwicklung des Model Context Protocol (MCP) hat die Anzahl der MCP-Server die Marke von 10.000 überschritten. Allerdings beschränken sich bestehende MCP-Benchmarks auf Einzelserver-Umgebungen mit nur wenigen Tools, was eine effektive Bewertung der Fähigkeiten von Agenten in groß angelegten, realen Szenarien behindert. Um diese Einschränkung zu überwinden, präsentieren wir LiveMCPBench, den ersten umfassenden Benchmark, der 95 reale Aufgaben im MCP-Ökosystem umfasst und darauf abzielt, LLM-Agenten in großem Maßstab über verschiedene Server hinweg zu evaluieren. Um eine skalierbare und reproduzierbare Evaluationspipeline in groß angelegten MCP-Umgebungen zu unterstützen, haben wir LiveMCPTool kuratiert, eine vielfältige und leicht einsetzbare Sammlung von 70 MCP-Servern und 527 Tools. Darüber hinaus führen wir LiveMCPEval ein, ein LLM-as-a-Judge-Framework, das eine automatisierte und adaptive Bewertung in dynamischen, zeitlich variierenden Aufgabenumgebungen ermöglicht und dabei eine Übereinstimmung von 81 % mit menschlichen Gutachtern erreicht. Schließlich schlagen wir den MCP Copilot Agent vor, einen mehrstufigen Agenten, der Tools für die dynamische Planung weiterleitet und Tools für die API-Interaktion über die gesamte LiveMCPTool-Suite hinweg ausführt. Unsere Evaluation umfasst 10 führende Modelle, wobei das leistungsstärkste Modell (Claude-Sonnet-4) eine Erfolgsquote von 78,95 % erreicht. Allerdings beobachten wir eine große Leistungsvarianz zwischen den Modellen, und mehrere weit verbreitete Modelle schneiden in den komplexen, toolreichen Umgebungen von LiveMCPBench schlecht ab. Insgesamt bietet LiveMCPBench den ersten einheitlichen Rahmen für das Benchmarking von LLM-Agenten in realistischen, toolreichen und dynamischen MCP-Umgebungen und legt damit eine solide Grundlage für skalierbare und reproduzierbare Forschung zu den Fähigkeiten von Agenten. Unser Code und unsere Daten werden öffentlich unter https://icip-cas.github.io/LiveMCPBench verfügbar sein.
English
With the rapid development of Model Context Protocol (MCP), the number of MCP
servers has surpassed 10,000. However, existing MCP benchmarks are limited to
single-server settings with only a few tools, hindering effective evaluation of
agent capabilities in large-scale, real-world scenarios. To address this
limitation, we present LiveMCPBench, the first comprehensive benchmark
comprising 95 real-world tasks grounded in the MCP ecosystem, designed to
evaluate LLM agents at scale across diverse servers. To support a scalable and
reproducible evaluation pipeline in large-scale MCP environments, we curate
LiveMCPTool, a diverse and readily deployable collection of 70 MCP servers and
527 tools. Furthermore, we introduce LiveMCPEval, an LLM-as-a-Judge framework
that enables automated and adaptive evaluation in dynamic, time-varying task
environments, achieving 81% agreement with human reviewers. Finally, we propose
the MCP Copilot Agent, a multi-step agent that routes tools for dynamic
planning and executes tools for API interaction across the entire LiveMCPTool
suite. Our evaluation covers 10 leading models, with the best-performing model
(Claude-Sonnet-4) reaching a 78.95% success rate. However, we observe large
performance variance across models, and several widely-used models perform
poorly in LiveMCPBench's complex, tool-rich environments. Overall, LiveMCPBench
offers the first unified framework for benchmarking LLM agents in realistic,
tool-rich, and dynamic MCP environments, laying a solid foundation for scalable
and reproducible research on agent capabilities. Our code and data will be
publicly available at https://icip-cas.github.io/LiveMCPBench.