MSC-Bench: Un Punto de Referencia Riguroso para la Orquestación de Herramientas Multi-Servidor
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
Autores: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
Resumen
Presentamos MSC-Bench, un benchmark a gran escala para evaluar la orquestación de herramientas multi-salto y de extremo a extremo por parte de agentes de LLM en un ecosistema jerárquico de Protocolo Modelo-Contexto (MCP). Los benchmarks existentes a menudo evalúan las herramientas de forma aislada, ignorando desafíos como el solapamiento funcional y la orquestación entre servidores, lo que conduce a evaluaciones excesivamente optimistas. MSC-Bench aborda estas carencias construyendo una verdad de base mediante 'conjuntos de funciones equivalentes', permitiendo el uso de métricas objetivas como la puntuación F1 y reduciendo la dependencia de la evaluación mediante LLM-como-juez. Organizado como un currículum de cinco niveles, evalúa sistemáticamente las capacidades de los agentes, desde la orquestación de una sola herramienta hasta la planificación compleja entre servidores, y la robustez frente a solicitudes fuera de alcance. Los experimentos revelan que las jerarquías rígidas pueden perjudicar el rendimiento sin estrategias co-diseñadas, y que incluso los agentes más avanzados presentan debilidades sistémicas en cuanto a robustez. MSC-Bench proporciona un marco de diagnóstico para exponer estas limitaciones y guiar el desarrollo de agentes que utilicen herramientas de forma más capaz y eficiente. El benchmark y los recursos están disponibles públicamente en https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.