LiveMCP-101: Testes de Estresse e Diagnóstico de Agentes Habilitados com MCP em Consultas Desafiadoras
LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries
August 21, 2025
Autores: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI
Resumo
A chamada de ferramentas emergiu como uma capacidade crítica para agentes de IA interagirem com o mundo real e resolverem tarefas complexas. Embora o Protocolo de Contexto de Modelo (MCP, na sigla em inglês) forneça uma estrutura padronizada poderosa para a integração de ferramentas, há uma lacuna significativa na avaliação de quão bem os agentes de IA podem resolver efetivamente tarefas de múltiplas etapas usando diversas ferramentas MCP em cenários realistas e dinâmicos. Neste trabalho, apresentamos o LiveMCP-101, um benchmark composto por 101 consultas do mundo real cuidadosamente curadas, refinadas por meio de reescrita iterativa por LLMs e revisão manual, que exigem o uso coordenado de múltiplas ferramentas MCP, incluindo pesquisa na web, operações de arquivos, raciocínio matemático e análise de dados. Além disso, introduzimos uma nova abordagem de avaliação que aproveita planos de execução de referência em vez de saídas brutas de APIs, refletindo melhor a natureza evolutiva dos ambientes do mundo real. Experimentos mostram que mesmo LLMs de ponta alcançam uma taxa de sucesso abaixo de 60\%, destacando grandes desafios na orquestração de ferramentas. Ablações detalhadas e análises de erros revelam ainda modos distintos de falha e ineficiências no uso de tokens, apontando direções concretas para o avanço dos modelos atuais. O LiveMCP-101 estabelece um padrão rigoroso para avaliar as capacidades de agentes no mundo real, avançando em direção a sistemas de IA autônomos que executam tarefas complexas de forma confiável por meio do uso de ferramentas.
English
Tool calling has emerged as a critical capability for AI agents to interact
with the real world and solve complex tasks. While the Model Context Protocol
(MCP) provides a powerful standardized framework for tool integration, there is
a significant gap in benchmarking how well AI agents can effectively solve
multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In
this work, we present LiveMCP-101, a benchmark of 101 carefully curated
real-world queries, refined through iterative LLM rewriting and manual review,
that require coordinated use of multiple MCP tools including web search, file
operations, mathematical reasoning, and data analysis. Moreover, we introduce a
novel evaluation approach that leverages ground-truth execution plans rather
than raw API outputs, better reflecting the evolving nature of real-world
environments. Experiments show that even frontier LLMs achieve a success rate
below 60\%, highlighting major challenges in tool orchestration. Detailed
ablations and error analysis further reveal distinct failure modes and
inefficiencies in token usage, pointing to concrete directions for advancing
current models. LiveMCP-101 sets a rigorous standard for evaluating real-world
agent capabilities, advancing toward autonomous AI systems that reliably
execute complex tasks through tool use.