ChatPaper.aiChatPaper

LiveMCP-101: Stress-testen en diagnosticeren van MCP-geactiveerde agents op uitdagende queries

LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

August 21, 2025
Auteurs: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI

Samenvatting

Tool calling is naar voren gekomen als een cruciale vaardigheid voor AI-agenten om te interageren met de echte wereld en complexe taken op te lossen. Hoewel het Model Context Protocol (MCP) een krachtig gestandaardiseerd raamwerk biedt voor toolintegratie, bestaat er een aanzienlijke leemte in het benchmarken van hoe goed AI-agenten effectief meerstappentaken kunnen oplossen met behulp van diverse MCP-tools in realistische, dynamische scenario's. In dit werk presenteren we LiveMCP-101, een benchmark van 101 zorgvuldig samengestelde real-world queries, verfijnd door iteratieve LLM-herschrijving en handmatige review, die gecoördineerd gebruik vereisen van meerdere MCP-tools, waaronder webzoekopdrachten, bestandsbewerkingen, wiskundige redenering en data-analyse. Bovendien introduceren we een nieuwe evaluatieaanpak die gebruikmaakt van grondwaarheid-uitvoeringsplannen in plaats van ruwe API-uitvoer, wat beter aansluit bij de evoluerende aard van real-world omgevingen. Experimenten tonen aan dat zelfs frontier LLM's een slagingspercentage van minder dan 60\% behalen, wat belangrijke uitdagingen in toolorchestratie benadrukt. Gedetailleerde ablatie- en foutanalyses onthullen verder verschillende faalmodi en inefficiënties in tokengebruik, wat wijst op concrete richtingen voor het verbeteren van huidige modellen. LiveMCP-101 stelt een rigoureuze standaard voor het evalueren van real-world agent-capaciteiten, en zet een stap voorwaarts naar autonome AI-systemen die complexe taken betrouwbaar uitvoeren door middel van toolgebruik.
English
Tool calling has emerged as a critical capability for AI agents to interact with the real world and solve complex tasks. While the Model Context Protocol (MCP) provides a powerful standardized framework for tool integration, there is a significant gap in benchmarking how well AI agents can effectively solve multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In this work, we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterative LLM rewriting and manual review, that require coordinated use of multiple MCP tools including web search, file operations, mathematical reasoning, and data analysis. Moreover, we introduce a novel evaluation approach that leverages ground-truth execution plans rather than raw API outputs, better reflecting the evolving nature of real-world environments. Experiments show that even frontier LLMs achieve a success rate below 60\%, highlighting major challenges in tool orchestration. Detailed ablations and error analysis further reveal distinct failure modes and inefficiencies in token usage, pointing to concrete directions for advancing current models. LiveMCP-101 sets a rigorous standard for evaluating real-world agent capabilities, advancing toward autonomous AI systems that reliably execute complex tasks through tool use.
PDF469August 22, 2025