ChatPaper.aiChatPaper

MCP-Bench: MCP 서버를 통한 복잡한 현실 세계 과제에 대한 도구 활용 LLM 에이전트 벤치마킹

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

August 28, 2025
저자: Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
cs.AI

초록

우리는 도구 사용, 도구 간 조정, 정밀한 매개변수 제어, 그리고 문제 해결을 위한 계획/추론이 요구되는 현실적이고 다단계의 작업을 통해 대규모 언어 모델(LLMs)을 평가하기 위한 벤치마크인 MCP-Bench를 소개합니다. MCP-Bench는 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)을 기반으로 구축되었으며, 금융, 여행, 과학적 컴퓨팅, 학술 검색 등 다양한 도메인에 걸쳐 250개의 도구를 제공하는 28개의 대표적인 실시간 MCP 서버와 LLMs를 연결합니다. 기존의 API 기반 벤치마크와 달리, 각 MCP 서버는 함께 작동하도록 설계된 상호 보완적인 도구 세트를 제공함으로써 풍부한 입력-출력 결합을 가진 진정한 다단계 작업을 구성할 수 있게 합니다. MCP-Bench의 작업은 명시적인 도구 이름 없이 모호한 지시에서 관련 도구를 검색하는 능력, 복잡한 목표를 위한 다중 홉 실행 경로를 계획하는 능력, 중간 도구 출력에 기반한 응답을 구체화하는 능력, 그리고 도메인 간 워크플로우를 조율하는 능력을 테스트합니다. 이는 명시적인 도구 사양, 단순한 몇 단계의 워크플로우, 그리고 고립된 도메인 작업에 의존하는 기존 벤치마크로는 충분히 평가되지 않는 역량들입니다. 우리는 도구 수준의 스키마 이해와 사용, 경로 수준의 계획, 그리고 작업 완료를 포괄하는 다면적 평가 프레임워크를 제안합니다. 20개의 고급 LLMs에 대한 실험은 MCP-Bench에서 지속적인 도전 과제를 드러냅니다. 코드와 데이터: https://github.com/Accenture/mcp-bench.
English
We introduce MCP-Bench, a benchmark for evaluating large language models (LLMs) on realistic, multi-step tasks that demand tool use, cross-tool coordination, precise parameter control, and planning/reasoning for solving tasks. Built on the Model Context Protocol (MCP), MCP-Bench connects LLMs to 28 representative live MCP servers spanning 250 tools across domains such as finance, traveling, scientific computing, and academic search. Unlike prior API-based benchmarks, each MCP server provides a set of complementary tools designed to work together, enabling the construction of authentic, multi-step tasks with rich input-output coupling. Tasks in MCP-Bench test agents' ability to retrieve relevant tools from fuzzy instructions without explicit tool names, plan multi-hop execution trajectories for complex objectives, ground responses in intermediate tool outputs, and orchestrate cross-domain workflows - capabilities not adequately evaluated by existing benchmarks that rely on explicit tool specifications, shallow few-step workflows, and isolated domain operations. We propose a multi-faceted evaluation framework covering tool-level schema understanding and usage, trajectory-level planning, and task completion. Experiments on 20 advanced LLMs reveal persistent challenges in MCP-Bench. Code and data: https://github.com/Accenture/mcp-bench.
PDF444August 29, 2025