ChatPaper.aiChatPaper

MSC-Bench: Een Strenge Benchmark voor Multi-Server Tool Orchestratie

MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration

October 22, 2025
Auteurs: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI

Samenvatting

Wij introduceren MSC-Bench, een grootschalige benchmark voor het evalueren van multi-hop, end-to-end tool-orchestratie door LLM-agents in een hiërarchisch Model-Context Protocol (MCP) ecosysteem. Bestaande benchmarks evalueren tools vaak in isolatie, waarbij uitdagingen zoals functionele overlap en cross-server orchestratie worden genegeerd, wat leidt tot overdreven optimistische beoordelingen. MSC-Bench adresseert deze tekortkomingen door de grondwaarheid te construeren met 'gelijke functiesets', waardoor objectieve metrieken zoals de F1-score mogelijk worden en de afhankelijkheid van LLM-als-rechter evaluatie wordt verminderd. Georganiseerd als een curriculum met vijf niveaus, test het systematisch de capaciteiten van agents, van single-tool orchestratie tot complexe cross-server planning, en robuustheid tegen out-of-scope verzoeken. Experimenten tonen aan dat rigide hiërarchieën de prestaties kunnen belemmeren zonder mede-ontworpen strategieën, en dat zelfs state-of-the-art agents systemische zwakheden in robuustheid vertonen. MSC-Bench biedt een diagnostisch kader om deze beperkingen bloot te leggen en de ontwikkeling van krachtigere en efficiëntere tool-gebruikende agents te sturen. De benchmark en bronnen zijn publiekelijk beschikbaar op https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop, end-to-end tool orchestration by LLM agents in a hierarchical Model-Context Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in isolation, ignoring challenges such as functional overlap and cross-server orchestration, leading to overly optimistic assessments. MSC-Bench addresses these gaps by constructing ground truth through 'equal function sets', allowing objective metrics such as F1 score and reducing the dependency on LLM-as-a-judge evaluation. Organized as a five-level curriculum, it systematically tests agent capabilities from single-tool orchestration to complex cross-server planning, and robustness to out-of-scope requests. Experiments reveal that rigid hierarchies can hinder performance without co-designed strategies, and even state-of-the-art agents exhibit systemic weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose these limitations and guide the development of more capable and efficient tool-using agents. The benchmark and resources are publicly available at https://github.com/snooow1029/MSC_Bench.
PDF42December 2, 2025