ChatPaper.aiChatPaper

LiveMCP-101: Test di Stress e Diagnosi di Agenti Abilitati MCP su Query Complesse

LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

August 21, 2025
Autori: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI

Abstract

La capacità di chiamare strumenti è emersa come una funzionalità cruciale per consentire agli agenti di intelligenza artificiale di interagire con il mondo reale e risolvere compiti complessi. Sebbene il Model Context Protocol (MCP) fornisca un potente framework standardizzato per l'integrazione di strumenti, esiste un divario significativo nella valutazione di quanto efficacemente gli agenti di IA possano risolvere compiti multi-step utilizzando strumenti MCP diversificati in scenari realistici e dinamici. In questo lavoro, presentiamo LiveMCP-101, un benchmark composto da 101 query del mondo reale accuratamente selezionate, perfezionate attraverso riscritture iterative tramite LLM e revisione manuale, che richiedono l'uso coordinato di più strumenti MCP, tra cui ricerca web, operazioni su file, ragionamento matematico e analisi dei dati. Inoltre, introduciamo un nuovo approccio di valutazione che sfrutta piani di esecuzione ground-truth anziché output grezzi delle API, riflettendo meglio la natura evolutiva degli ambienti reali. Gli esperimenti mostrano che anche i migliori LLM raggiungono un tasso di successo inferiore al 60%, evidenziando sfide significative nell'orchestrazione degli strumenti. Ablazioni dettagliate e analisi degli errori rivelano ulteriormente modalità di fallimento distinte e inefficienze nell'uso dei token, indicando direzioni concrete per il miglioramento dei modelli attuali. LiveMCP-101 stabilisce uno standard rigoroso per valutare le capacità degli agenti nel mondo reale, avanzando verso sistemi di IA autonomi che eseguono in modo affidabile compiti complessi attraverso l'uso di strumenti.
English
Tool calling has emerged as a critical capability for AI agents to interact with the real world and solve complex tasks. While the Model Context Protocol (MCP) provides a powerful standardized framework for tool integration, there is a significant gap in benchmarking how well AI agents can effectively solve multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In this work, we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterative LLM rewriting and manual review, that require coordinated use of multiple MCP tools including web search, file operations, mathematical reasoning, and data analysis. Moreover, we introduce a novel evaluation approach that leverages ground-truth execution plans rather than raw API outputs, better reflecting the evolving nature of real-world environments. Experiments show that even frontier LLMs achieve a success rate below 60\%, highlighting major challenges in tool orchestration. Detailed ablations and error analysis further reveal distinct failure modes and inefficiencies in token usage, pointing to concrete directions for advancing current models. LiveMCP-101 sets a rigorous standard for evaluating real-world agent capabilities, advancing toward autonomous AI systems that reliably execute complex tasks through tool use.
PDF469August 22, 2025