MSC-Bench: Ein rigoroser Benchmark für die Multi-Server-Tool-Orchestrierung
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
papers.authors: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
papers.abstract
Wir stellen MSC-Bench vor, einen umfangreichen Benchmark zur Bewertung von mehrstufiger, end-to-end Werkzeugorchestrierung durch LLM-Agents in einem hierarchischen Model-Context-Protocol (MCP)-Ökosystem. Bestehende Benchmarks bewerten Werkzeuge häufig isoliert und ignorieren Herausforderungen wie funktionale Überlappungen und serverübergreifende Orchestrierung, was zu übermäßig optimistischen Bewertungen führt. MSC-Bench schließt diese Lücken, indem Ground Truth durch ‚gleiche Funktionssätze‘ konstruiert wird, was objektive Metriken wie den F1-Score ermöglicht und die Abhängigkeit von LLM-as-a-Judge-Evaluierungen verringert. Als fünfstufiger Lehrplan organisiert, testet es systematisch die Fähigkeiten von Agents – von der Orchestrierung einzelner Werkzeuge bis hin zu komplexer serverübergreifender Planung und Robustheit gegenüber Anfragen außerhalb des Gültigkeitsbereichs. Experimente zeigen, dass rigide Hierarchien die Leistung beeinträchtigen können, wenn keine co-designeten Strategien vorhanden sind, und dass sogar state-of-the-art Agents systematische Schwächen in der Robustheit aufweisen. MSC-Bench bietet einen diagnostischen Rahmen, um diese Grenzen aufzuzeigen und die Entwicklung leistungsfähigerer und effizienterer werkzeugnutzender Agents zu leiten. Der Benchmark und die Ressourcen sind öffentlich verfügbar unter https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.