MSC-Bench : Un Référentiel Rigoureux pour l'Orchestration d'Outils Multi-Serveurs
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
papers.authors: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
papers.abstract
Nous présentons MSC-Bench, un benchmark à grande échelle conçu pour évaluer l'orchestration d'outils multi-sauts de bout en bout par des agents LLM dans un écosystème hiérarchique utilisant le protocole Modèle-Contexte (MCP). Les benchmarks existants évaluent souvent les outils de manière isolée, ignorant des défis tels que le chevauchement fonctionnel et l'orchestration inter-serveurs, ce qui conduit à des évaluations excessivement optimistes. MSC-Bench comble ces lacunes en construisant une vérité terrain via des 'ensembles de fonctions équivalents', permettant l'utilisation de métriques objectives comme le score F1 et réduisant la dépendance à l'évaluation par LLM-comme-juge. Organisé selon un curriculum à cinq niveaux, il teste systématiquement les capacités des agents, depuis l'orchestration d'un outil unique jusqu'à la planification complexe inter-serveurs, en incluant la robustesse face aux requêtes hors du champ d'application. Les expériences révèlent que des hiérarchies rigides peuvent nuire aux performances sans stratégies co-conçues, et que même les agents les plus avancés présentent des faiblesses systémiques en matière de robustesse. MSC-Bench fournit un cadre de diagnostic pour exposer ces limitations et guider le développement d'agents utilisant des outils de manière plus compétente et efficace. Le benchmark et les ressources associées sont disponibles publiquement à l'adresse https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.