LiveMCP-101 : Test de résistance et diagnostic des agents compatibles MCP sur des requêtes complexes
LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries
August 21, 2025
papers.authors: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI
papers.abstract
L'appel d'outils est devenu une capacité essentielle pour les agents d'IA afin d'interagir avec le monde réel et de résoudre des tâches complexes. Bien que le Protocole de Contexte de Modèle (MCP) offre un cadre standardisé puissant pour l'intégration d'outils, il existe un écart significatif dans l'évaluation de la capacité des agents d'IA à résoudre efficacement des tâches à étapes multiples en utilisant divers outils MCP dans des scénarios réalistes et dynamiques. Dans ce travail, nous présentons LiveMCP-101, un benchmark de 101 requêtes soigneusement sélectionnées issues du monde réel, affinées par réécriture itérative via LLM et examen manuel, qui nécessitent l'utilisation coordonnée de plusieurs outils MCP, notamment la recherche web, les opérations sur fichiers, le raisonnement mathématique et l'analyse de données. De plus, nous introduisons une nouvelle approche d'évaluation qui exploite des plans d'exécution de référence plutôt que les sorties brutes d'API, reflétant mieux la nature évolutive des environnements réels. Les expériences montrent que même les LLM de pointe atteignent un taux de réussite inférieur à 60 %, mettant en évidence des défis majeurs dans l'orchestration d'outils. Des ablations détaillées et une analyse des erreurs révèlent en outre des modes d'échec distincts et des inefficacités dans l'utilisation des tokens, indiquant des directions concrètes pour faire progresser les modèles actuels. LiveMCP-101 établit une norme rigoureuse pour évaluer les capacités des agents dans le monde réel, avançant vers des systèmes d'IA autonomes qui exécutent de manière fiable des tâches complexes grâce à l'utilisation d'outils.
English
Tool calling has emerged as a critical capability for AI agents to interact
with the real world and solve complex tasks. While the Model Context Protocol
(MCP) provides a powerful standardized framework for tool integration, there is
a significant gap in benchmarking how well AI agents can effectively solve
multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In
this work, we present LiveMCP-101, a benchmark of 101 carefully curated
real-world queries, refined through iterative LLM rewriting and manual review,
that require coordinated use of multiple MCP tools including web search, file
operations, mathematical reasoning, and data analysis. Moreover, we introduce a
novel evaluation approach that leverages ground-truth execution plans rather
than raw API outputs, better reflecting the evolving nature of real-world
environments. Experiments show that even frontier LLMs achieve a success rate
below 60\%, highlighting major challenges in tool orchestration. Detailed
ablations and error analysis further reveal distinct failure modes and
inefficiencies in token usage, pointing to concrete directions for advancing
current models. LiveMCP-101 sets a rigorous standard for evaluating real-world
agent capabilities, advancing toward autonomous AI systems that reliably
execute complex tasks through tool use.