ChatPaper.aiChatPaper

LiveMCP-101: Pruebas de Estrés y Diagnóstico de Agentes Habilitados con MCP en Consultas Desafiantes

LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

August 21, 2025
Autores: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI

Resumen

La capacidad de invocar herramientas ha surgido como una habilidad crítica para que los agentes de IA interactúen con el mundo real y resuelvan tareas complejas. Si bien el Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) proporciona un marco estandarizado y potente para la integración de herramientas, existe una brecha significativa en la evaluación de qué tan bien los agentes de IA pueden resolver eficazmente tareas de múltiples pasos utilizando diversas herramientas MCP en escenarios dinámicos y realistas. En este trabajo, presentamos LiveMCP-101, un benchmark de 101 consultas cuidadosamente seleccionadas del mundo real, refinadas mediante reescritura iterativa con modelos de lenguaje (LLM) y revisión manual, que requieren el uso coordinado de múltiples herramientas MCP, incluyendo búsqueda web, operaciones de archivos, razonamiento matemático y análisis de datos. Además, introducimos un enfoque de evaluación novedoso que aprovecha planes de ejecución de referencia en lugar de salidas brutas de API, reflejando mejor la naturaleza evolutiva de los entornos del mundo real. Los experimentos muestran que incluso los LLM más avanzados logran una tasa de éxito inferior al 60%, lo que subraya importantes desafíos en la orquestación de herramientas. Los análisis detallados y el estudio de errores revelan además modos de fallo distintos e ineficiencias en el uso de tokens, señalando direcciones concretas para avanzar en los modelos actuales. LiveMCP-101 establece un estándar riguroso para evaluar las capacidades de los agentes en el mundo real, avanzando hacia sistemas de IA autónomos que ejecuten tareas complejas de manera confiable mediante el uso de herramientas.
English
Tool calling has emerged as a critical capability for AI agents to interact with the real world and solve complex tasks. While the Model Context Protocol (MCP) provides a powerful standardized framework for tool integration, there is a significant gap in benchmarking how well AI agents can effectively solve multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In this work, we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterative LLM rewriting and manual review, that require coordinated use of multiple MCP tools including web search, file operations, mathematical reasoning, and data analysis. Moreover, we introduce a novel evaluation approach that leverages ground-truth execution plans rather than raw API outputs, better reflecting the evolving nature of real-world environments. Experiments show that even frontier LLMs achieve a success rate below 60\%, highlighting major challenges in tool orchestration. Detailed ablations and error analysis further reveal distinct failure modes and inefficiencies in token usage, pointing to concrete directions for advancing current models. LiveMCP-101 sets a rigorous standard for evaluating real-world agent capabilities, advancing toward autonomous AI systems that reliably execute complex tasks through tool use.
PDF395August 22, 2025