MSC-Bench: Un Benchmark Rigoroso per l'Orchestrazione di Strumenti Multi-Server
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
Autori: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
Abstract
Introduciamo MSC-Bench, un benchmark su larga scala per valutare l'orchestrazione di strumenti multi-hop e end-to-end da parte di agenti LLM in un ecosistema gerarchico basato sul Model-Context Protocol (MCP). I benchmark esistenti valutano spesso gli strumenti in isolamento, ignorando sfide come la sovrapposizione funzionale e l'orchestrazione cross-server, portando a valutazioni eccessivamente ottimistiche. MSC-Bench affronta queste lacune costruendo ground truth attraverso 'insiemi di funzioni equivalenti', permettendo l'uso di metriche oggettive come l'F1-score e riducendo la dipendenza da valutazioni LLM-as-a-judge. Organizzato come un curriculum a cinque livelli, testa sistematicamente le capacità degli agenti dall'orchestrazione di strumenti singoli alla pianificazione complessa cross-server, e la robustezza a richieste fuori contesto. Gli esperimenti rivelano che gerarchie rigide possono ostacolare le prestazioni senza strategie co-progettate, e che anche gli agenti più all'avanguardia mostrano debolezze sistemiche nella robustezza. MSC-Bench fornisce un framework diagnostico per evidenziare questi limiti e guidare lo sviluppo di agenti che utilizzano strumenti in modo più capace ed efficiente. Il benchmark e le risorse sono pubblicamente disponibili all'indirizzo https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.