MSC-Bench: 다중 서버 도구 오케스트레이션을 위한 엄격한 벤치마크
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
저자: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
초록
우리는 계층적 모델-컨텍스트 프로토콜(MCP) 생태계에서 LLM 에이전트의 다중 홉, 종단 간 도구 오케스트레이션을 평가하기 위한 대규모 벤치마크인 MSC-Bench를 소개한다. 기존 벤치마크는 종종 도구를 단독으로 평가하여 기능 중복 및 크로스-서버 오케스트레이션과 같은 과제를 간과함으로써 지나치게 낙관적인 평가를 내놓는다. MSC-Bench는 '동등 기능 집합(equal function sets)'을 통해 실측 기준을 구성하여 F1 점수와 같은 객관적 지표를 허용하고 LLM-as-a-judge 평가에 대한 의존도를 줄여 이러한 격차를 해결한다. 5단계 커리큘럼으로 구성된 본 벤치마크는 단일 도구 오케스트레이션부터 복잡한 크로스-서버 계획 수립, 그리고 범위 외 요청에 대한 견고성에 이르기까지 에이전트 능력을 체계적으로 테스트한다. 실험 결과, 공동 설계 전략 없이는 경직된 계층 구조가 성능을 저해할 수 있으며, 최첨단 에이전트조차도 견고성 측면에서 체계적인 약점을 보여준다. MSC-Bench는 이러한 한계를 드러내고 더 능력 있고 효율적인 도구 활용 에이전트 개발을 안내하는 진단 프레임워크를 제공한다. 벤치마크 및 관련 자료는 https://github.com/snooow1029/MSC_Bench에서 공개적으로 이용할 수 있다.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.