MSC-Bench: Строгий эталонный тест для оркестрации инструментов в мультисерверной среде
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
October 22, 2025
Авторы: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai
cs.AI
Аннотация
Мы представляем MSC-Bench — масштабный бенчмарк для оценки многошаговой сквозной оркестрации инструментов агентами на основе больших языковых моделей (LLM) в иерархической экосистеме Model-Context Protocol (MCP). Существующие бенчмарки часто оценивают инструменты изолированно, игнорируя такие проблемы, как функциональное перекрытие и кросс-серверная оркестрация, что приводит к излишне оптимистичным оценкам. MSC-Bench устраняет эти пробелы, формируя эталонные данные с помощью «наборов равнозначных функций», что позволяет использовать объективные метрики, такие как F1-мера, и снижает зависимость от оценки с помощью LLM-как-судьи. Организованный в виде пятиуровневого учебного плана, бенчмарк систематически проверяет способности агентов — от оркестрации одиночных инструментов до сложного кросс-серверного планирования и устойчивости к запросам вне области их компетенции. Эксперименты показывают, что жесткие иерархии могут ухудшать производительность без специально разработанных стратегий, и даже передовые агенты демонстрируют системные слабости в устойчивости. MSC-Bench предоставляет диагностическую основу для выявления этих ограничений и направления разработки более эффективных агентов, использующих инструменты. Бенчмарк и сопутствующие ресурсы доступны по адресу https://github.com/snooow1029/MSC_Bench.
English
We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop,
end-to-end tool orchestration by LLM agents in a hierarchical Model-Context
Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in
isolation, ignoring challenges such as functional overlap and cross-server
orchestration, leading to overly optimistic assessments. MSC-Bench addresses
these gaps by constructing ground truth through 'equal function sets', allowing
objective metrics such as F1 score and reducing the dependency on
LLM-as-a-judge evaluation. Organized as a five-level curriculum, it
systematically tests agent capabilities from single-tool orchestration to
complex cross-server planning, and robustness to out-of-scope requests.
Experiments reveal that rigid hierarchies can hinder performance without
co-designed strategies, and even state-of-the-art agents exhibit systemic
weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose
these limitations and guide the development of more capable and efficient
tool-using agents. The benchmark and resources are publicly available at
https://github.com/snooow1029/MSC_Bench.