MSC-Bench : Un Référentiel Rigoureux pour l'Orchestration d'Outils Multi-Serveurs

papers.abstract

Nous présentons MSC-Bench, un benchmark à grande échelle conçu pour évaluer l'orchestration d'outils multi-sauts de bout en bout par des agents LLM dans un écosystème hiérarchique utilisant le protocole Modèle-Contexte (MCP). Les benchmarks existants évaluent souvent les outils de manière isolée, ignorant des défis tels que le chevauchement fonctionnel et l'orchestration inter-serveurs, ce qui conduit à des évaluations excessivement optimistes. MSC-Bench comble ces lacunes en construisant une vérité terrain via des 'ensembles de fonctions équivalents', permettant l'utilisation de métriques objectives comme le score F1 et réduisant la dépendance à l'évaluation par LLM-comme-juge. Organisé selon un curriculum à cinq niveaux, il teste systématiquement les capacités des agents, depuis l'orchestration d'un outil unique jusqu'à la planification complexe inter-serveurs, en incluant la robustesse face aux requêtes hors du champ d'application. Les expériences révèlent que des hiérarchies rigides peuvent nuire aux performances sans stratégies co-conçues, et que même les agents les plus avancés présentent des faiblesses systémiques en matière de robustesse. MSC-Bench fournit un cadre de diagnostic pour exposer ces limitations et guider le développement d'agents utilisant des outils de manière plus compétente et efficace. Le benchmark et les ressources associées sont disponibles publiquement à l'adresse https://github.com/snooow1029/MSC_Bench.

English

We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop, end-to-end tool orchestration by LLM agents in a hierarchical Model-Context Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in isolation, ignoring challenges such as functional overlap and cross-server orchestration, leading to overly optimistic assessments. MSC-Bench addresses these gaps by constructing ground truth through 'equal function sets', allowing objective metrics such as F1 score and reducing the dependency on LLM-as-a-judge evaluation. Organized as a five-level curriculum, it systematically tests agent capabilities from single-tool orchestration to complex cross-server planning, and robustness to out-of-scope requests. Experiments reveal that rigid hierarchies can hinder performance without co-designed strategies, and even state-of-the-art agents exhibit systemic weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose these limitations and guide the development of more capable and efficient tool-using agents. The benchmark and resources are publicly available at https://github.com/snooow1029/MSC_Bench.

MSC-Bench : Un Référentiel Rigoureux pour l'Orchestration d'Outils Multi-Serveurs

MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration

papers.abstract

Support