LiveMCPBench: Können Agenten einen Ozean von MCP-Tools navigieren?

papers.abstract

Mit der rasanten Entwicklung des Model Context Protocol (MCP) hat die Anzahl der MCP-Server die Marke von 10.000 überschritten. Allerdings beschränken sich bestehende MCP-Benchmarks auf Einzelserver-Umgebungen mit nur wenigen Tools, was eine effektive Bewertung der Fähigkeiten von Agenten in groß angelegten, realen Szenarien behindert. Um diese Einschränkung zu überwinden, präsentieren wir LiveMCPBench, den ersten umfassenden Benchmark, der 95 reale Aufgaben im MCP-Ökosystem umfasst und darauf abzielt, LLM-Agenten in großem Maßstab über verschiedene Server hinweg zu evaluieren. Um eine skalierbare und reproduzierbare Evaluationspipeline in groß angelegten MCP-Umgebungen zu unterstützen, haben wir LiveMCPTool kuratiert, eine vielfältige und leicht einsetzbare Sammlung von 70 MCP-Servern und 527 Tools. Darüber hinaus führen wir LiveMCPEval ein, ein LLM-as-a-Judge-Framework, das eine automatisierte und adaptive Bewertung in dynamischen, zeitlich variierenden Aufgabenumgebungen ermöglicht und dabei eine Übereinstimmung von 81 % mit menschlichen Gutachtern erreicht. Schließlich schlagen wir den MCP Copilot Agent vor, einen mehrstufigen Agenten, der Tools für die dynamische Planung weiterleitet und Tools für die API-Interaktion über die gesamte LiveMCPTool-Suite hinweg ausführt. Unsere Evaluation umfasst 10 führende Modelle, wobei das leistungsstärkste Modell (Claude-Sonnet-4) eine Erfolgsquote von 78,95 % erreicht. Allerdings beobachten wir eine große Leistungsvarianz zwischen den Modellen, und mehrere weit verbreitete Modelle schneiden in den komplexen, toolreichen Umgebungen von LiveMCPBench schlecht ab. Insgesamt bietet LiveMCPBench den ersten einheitlichen Rahmen für das Benchmarking von LLM-Agenten in realistischen, toolreichen und dynamischen MCP-Umgebungen und legt damit eine solide Grundlage für skalierbare und reproduzierbare Forschung zu den Fähigkeiten von Agenten. Unser Code und unsere Daten werden öffentlich unter https://icip-cas.github.io/LiveMCPBench verfügbar sein.

English

With the rapid development of Model Context Protocol (MCP), the number of MCP servers has surpassed 10,000. However, existing MCP benchmarks are limited to single-server settings with only a few tools, hindering effective evaluation of agent capabilities in large-scale, real-world scenarios. To address this limitation, we present LiveMCPBench, the first comprehensive benchmark comprising 95 real-world tasks grounded in the MCP ecosystem, designed to evaluate LLM agents at scale across diverse servers. To support a scalable and reproducible evaluation pipeline in large-scale MCP environments, we curate LiveMCPTool, a diverse and readily deployable collection of 70 MCP servers and 527 tools. Furthermore, we introduce LiveMCPEval, an LLM-as-a-Judge framework that enables automated and adaptive evaluation in dynamic, time-varying task environments, achieving 81% agreement with human reviewers. Finally, we propose the MCP Copilot Agent, a multi-step agent that routes tools for dynamic planning and executes tools for API interaction across the entire LiveMCPTool suite. Our evaluation covers 10 leading models, with the best-performing model (Claude-Sonnet-4) reaching a 78.95% success rate. However, we observe large performance variance across models, and several widely-used models perform poorly in LiveMCPBench's complex, tool-rich environments. Overall, LiveMCPBench offers the first unified framework for benchmarking LLM agents in realistic, tool-rich, and dynamic MCP environments, laying a solid foundation for scalable and reproducible research on agent capabilities. Our code and data will be publicly available at https://icip-cas.github.io/LiveMCPBench.

LiveMCPBench: Können Agenten einen Ozean von MCP-Tools navigieren?

LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

papers.abstract

Support