LiveMCP-101: Stresstests und Diagnose von MCP-fähigen Agenten bei anspruchsvollen Abfragen
LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries
August 21, 2025
papers.authors: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI
papers.abstract
Tool Calling hat sich als entscheidende Fähigkeit für KI-Agenten etabliert, um mit der realen Welt zu interagieren und komplexe Aufgaben zu lösen. Während das Model Context Protocol (MCP) einen leistungsstarken, standardisierten Rahmen für die Integration von Tools bietet, besteht eine erhebliche Lücke bei der Bewertung, wie effektiv KI-Agenten mehrstufige Aufgaben unter Verwendung verschiedener MCP-Tools in realistischen, dynamischen Szenarien lösen können. In dieser Arbeit stellen wir LiveMCP-101 vor, einen Benchmark mit 101 sorgfältig ausgewählten realen Anfragen, die durch iterative LLM-Überarbeitung und manuelle Überprüfung verfeinert wurden und die eine koordinierte Nutzung mehrerer MCP-Tools wie Websuche, Dateioperationen, mathematisches Denken und Datenanalyse erfordern. Darüber hinaus führen wir einen neuartigen Bewertungsansatz ein, der auf Ground-Truth-Ausführungsplänen basiert und nicht auf rohen API-Ausgaben, wodurch die sich entwickelnde Natur realer Umgebungen besser widergespiegelt wird. Experimente zeigen, dass selbst fortschrittliche LLMs eine Erfolgsquote von unter 60 % erreichen, was die großen Herausforderungen bei der Orchestrierung von Tools verdeutlicht. Detaillierte Ablationen und Fehleranalysen offenbaren zudem unterschiedliche Fehlermodi und Ineffizienzen bei der Token-Nutzung, die konkrete Richtungen für die Weiterentwicklung aktueller Modelle aufzeigen. LiveMCP-101 setzt einen strengen Standard für die Bewertung der Fähigkeiten von KI-Agenten in der realen Welt und trägt dazu bei, autonome KI-Systeme zu entwickeln, die komplexe Aufgaben durch den Einsatz von Tools zuverlässig ausführen können.
English
Tool calling has emerged as a critical capability for AI agents to interact
with the real world and solve complex tasks. While the Model Context Protocol
(MCP) provides a powerful standardized framework for tool integration, there is
a significant gap in benchmarking how well AI agents can effectively solve
multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In
this work, we present LiveMCP-101, a benchmark of 101 carefully curated
real-world queries, refined through iterative LLM rewriting and manual review,
that require coordinated use of multiple MCP tools including web search, file
operations, mathematical reasoning, and data analysis. Moreover, we introduce a
novel evaluation approach that leverages ground-truth execution plans rather
than raw API outputs, better reflecting the evolving nature of real-world
environments. Experiments show that even frontier LLMs achieve a success rate
below 60\%, highlighting major challenges in tool orchestration. Detailed
ablations and error analysis further reveal distinct failure modes and
inefficiencies in token usage, pointing to concrete directions for advancing
current models. LiveMCP-101 sets a rigorous standard for evaluating real-world
agent capabilities, advancing toward autonomous AI systems that reliably
execute complex tasks through tool use.