ChatPaper.aiChatPaper

MSC-Bench: マルチサーバーツールオーケストレーションのための厳格なベンチマーク

MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration

October 22, 2025
著者: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI

要旨

本論文では、階層型モデル・コンテクストプロトコル(MCP)エコシステムにおけるLLMエージェントのマルチホップかつエンドツーエンドのツールオーケストレーションを評価する大規模ベンチマーク、MSC-Benchを提案する。既存のベンチマークはツールを単体で評価することが多く、機能の重複やクロスサーバーオーケストレーションといった課題を無視しているため、評価が過度に楽観的になりがちである。MSC-Benchは、「同等機能セット」によるグラウンドトゥルースの構築を通じてこれらの課題に対処し、F1スコアなどの客観的指標を可能にし、評価手法としてのLLM依存度を低減する。5段階のカリキュラムで構成され、単一ツールのオーケストレーションから複雑なクロスサーバー計画、スコープ外リクエストへのロバスト性まで、エージェントの能力を体系的に試験する。実験により、共同設計された戦略なしでは硬直的な階層構造が性能を阻害すること、また、最先端のエージェントでさえロバスト性に体系的な弱点があることが明らかになった。MSC-Benchはこれらの限界を明らかにし、より高能力で効率的なツール利用エージェントの開発を導く診断フレームワークを提供する。ベンチマークと関連リソースはhttps://github.com/snooow1029/MSC_Bench で公開されている。
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop, end-to-end tool orchestration by LLM agents in a hierarchical Model-Context Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in isolation, ignoring challenges such as functional overlap and cross-server orchestration, leading to overly optimistic assessments. MSC-Bench addresses these gaps by constructing ground truth through 'equal function sets', allowing objective metrics such as F1 score and reducing the dependency on LLM-as-a-judge evaluation. Organized as a five-level curriculum, it systematically tests agent capabilities from single-tool orchestration to complex cross-server planning, and robustness to out-of-scope requests. Experiments reveal that rigid hierarchies can hinder performance without co-designed strategies, and even state-of-the-art agents exhibit systemic weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose these limitations and guide the development of more capable and efficient tool-using agents. The benchmark and resources are publicly available at https://github.com/snooow1029/MSC_Bench.
PDF42December 2, 2025