LiveMCP-101: 도전적인 쿼리에서 MCP 지원 에이전트의 스트레스 테스트 및 진단
LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries
August 21, 2025
저자: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
cs.AI
초록
도구 호출은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하기 위한 핵심 능력으로 부상했습니다. 모델 컨텍스트 프로토콜(MCP)은 도구 통합을 위한 강력한 표준화된 프레임워크를 제공하지만, AI 에이전트가 현실적이고 동적인 시나리오에서 다양한 MCP 도구를 사용하여 다단계 작업을 효과적으로 해결하는 능력을 벤치마킹하는 데는 상당한 격차가 있습니다. 본 연구에서는 웹 검색, 파일 작업, 수학적 추론, 데이터 분석을 포함한 여러 MCP 도구의 조정된 사용이 필요한 101개의 신중하게 선별된 실제 쿼리로 구성된 LiveMCP-101 벤치마크를 제시합니다. 이 쿼리들은 반복적인 LLM 재작성과 수동 검토를 통해 정제되었습니다. 더 나아가, 우리는 원시 API 출력보다는 실제 실행 계획을 활용한 새로운 평가 방식을 도입하여 현실 세계 환경의 진화하는 특성을 더 잘 반영합니다. 실험 결과, 최첨단 LLM조차도 60% 미만의 성공률을 달성하며, 도구 조정에서의 주요한 도전 과제를 강조합니다. 상세한 절제 연구와 오류 분석은 토큰 사용에서의 비효율성과 구별되는 실패 모드를 추가로 밝혀내며, 현재 모델을 발전시킬 구체적인 방향을 제시합니다. LiveMCP-101은 도구 사용을 통해 복잡한 작업을 신뢰성 있게 실행하는 자율적인 AI 시스템으로 나아가기 위한 현실 세계 에이전트 능력 평가의 엄격한 기준을 설정합니다.
English
Tool calling has emerged as a critical capability for AI agents to interact
with the real world and solve complex tasks. While the Model Context Protocol
(MCP) provides a powerful standardized framework for tool integration, there is
a significant gap in benchmarking how well AI agents can effectively solve
multi-step tasks using diverse MCP tools in realistic, dynamic scenarios. In
this work, we present LiveMCP-101, a benchmark of 101 carefully curated
real-world queries, refined through iterative LLM rewriting and manual review,
that require coordinated use of multiple MCP tools including web search, file
operations, mathematical reasoning, and data analysis. Moreover, we introduce a
novel evaluation approach that leverages ground-truth execution plans rather
than raw API outputs, better reflecting the evolving nature of real-world
environments. Experiments show that even frontier LLMs achieve a success rate
below 60\%, highlighting major challenges in tool orchestration. Detailed
ablations and error analysis further reveal distinct failure modes and
inefficiencies in token usage, pointing to concrete directions for advancing
current models. LiveMCP-101 sets a rigorous standard for evaluating real-world
agent capabilities, advancing toward autonomous AI systems that reliably
execute complex tasks through tool use.