ChatPaper.aiChatPaper

LiveMCP-101: Стресс-тестирование и диагностика агентов с поддержкой MCP на сложных запросах

LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

August 21, 2025
Авторы: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI

Аннотация

Вызов инструментов стал критически важной функцией для ИИ-агентов, позволяющей им взаимодействовать с реальным миром и решать сложные задачи. Хотя Протокол Контекста Модели (MCP) предоставляет мощную стандартизированную основу для интеграции инструментов, существует значительный пробел в оценке того, насколько эффективно ИИ-агенты могут решать многошаговые задачи с использованием разнообразных инструментов MCP в реалистичных, динамичных сценариях. В данной работе мы представляем LiveMCP-101 — эталонный набор из 101 тщательно отобранного реального запроса, доработанного с помощью итеративного переписывания с использованием языковых моделей и ручной проверки. Эти запросы требуют скоординированного использования нескольких инструментов MCP, включая веб-поиск, операции с файлами, математические рассуждения и анализ данных. Более того, мы вводим новый подход к оценке, который опирается на эталонные планы выполнения, а не на сырые выходные данные API, что лучше отражает изменчивую природу реальных сред. Эксперименты показывают, что даже передовые языковые модели достигают успешности ниже 60%, что подчеркивает серьезные проблемы в оркестровке инструментов. Детальный анализ и исследование ошибок выявляют различные режимы сбоев и неэффективность использования токенов, указывая на конкретные направления для улучшения текущих моделей. LiveMCP-101 устанавливает строгий стандарт для оценки возможностей ИИ-агентов в реальных условиях, продвигаясь к созданию автономных ИИ-систем, которые надежно выполняют сложные задачи с использованием инструментов.
English
Tool calling has emerged as a critical capability for AI agents to interact with the real world and solve complex tasks. While the Model Context Protocol (MCP) provides a powerful standardized framework for tool integration, there is a significant gap in benchmarking how well AI agents can effectively solve multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In this work, we present LiveMCP-101, a benchmark of 101 carefully curated real-world queries, refined through iterative LLM rewriting and manual review, that require coordinated use of multiple MCP tools including web search, file operations, mathematical reasoning, and data analysis. Moreover, we introduce a novel evaluation approach that leverages ground-truth execution plans rather than raw API outputs, better reflecting the evolving nature of real-world environments. Experiments show that even frontier LLMs achieve a success rate below 60\%, highlighting major challenges in tool orchestration. Detailed ablations and error analysis further reveal distinct failure modes and inefficiencies in token usage, pointing to concrete directions for advancing current models. LiveMCP-101 sets a rigorous standard for evaluating real-world agent capabilities, advancing toward autonomous AI systems that reliably execute complex tasks through tool use.
PDF395August 22, 2025