MSC-Bench: Um Benchmark Rigoroso para Orquestração de Ferramentas em Múltiplos Servidores
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
Autores: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
Resumo
Apresentamos o MSC-Bench, um benchmark em larga escala para avaliação de orquestração de ferramentas multi-hop e de ponta a ponta por agentes de LLM em um ecossistema hierárquico de Protocolo Modelo-Contexto (MCP). Os benchmarks existentes frequentemente avaliam ferramentas de forma isolada, ignorando desafios como sobreposição funcional e orquestração entre servidores, levando a avaliações excessivamente otimistas. O MSC-Bench aborda essas lacunas construindo ground truth por meio de 'conjuntos de funções equivalentes', permitindo métricas objetivas como o score F1 e reduzindo a dependência da avaliação por LLM-como-juiz. Organizado como um currículo de cinco níveis, ele testa sistematicamente as capacidades dos agentes, desde a orquestração de ferramentas únicas até o planejamento complexo entre servidores, e a robustez a solicitações fora do escopo. Experimentos revelam que hierarquias rígidas podem prejudicar o desempenho sem estratégias co-projetadas, e mesmo os agentes mais avançados exibem fraquezas sistêmicas de robustez. O MSC-Bench fornece uma estrutura diagnóstica para expor essas limitações e orientar o desenvolvimento de agentes que utilizam ferramentas de forma mais capaz e eficiente. O benchmark e os recursos estão publicamente disponíveis em https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.