LiveMCPBench: Способны ли агенты ориентироваться в океане инструментов MCP?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
August 3, 2025
Авторы: Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
Аннотация
С быстрым развитием протокола Model Context Protocol (MCP) количество MCP-серверов превысило 10 000. Однако существующие бенчмарки MCP ограничены настройками для одного сервера с использованием лишь нескольких инструментов, что затрудняет эффективную оценку возможностей агентов в крупномасштабных реальных сценариях. Чтобы устранить это ограничение, мы представляем LiveMCPBench — первый комплексный бенчмарк, включающий 95 реальных задач, основанных на экосистеме MCP, предназначенный для оценки LLM-агентов в масштабе на различных серверах. Для поддержки масштабируемого и воспроизводимого процесса оценки в крупномасштабных средах MCP мы создали LiveMCPTool — разнообразную и легко развертываемую коллекцию из 70 MCP-серверов и 527 инструментов. Кроме того, мы представляем LiveMCPEval — фреймворк LLM-as-a-Judge, который позволяет проводить автоматизированную и адаптивную оценку в динамических, изменяющихся во времени средах задач, достигая 81% согласия с оценками людей. Наконец, мы предлагаем MCP Copilot Agent — многошагового агента, который маршрутизирует инструменты для динамического планирования и выполняет их для взаимодействия с API во всем наборе LiveMCPTool. Наша оценка охватывает 10 ведущих моделей, при этом лучшая модель (Claude-Sonnet-4) достигает уровня успешности 78,95%. Однако мы наблюдаем значительные различия в производительности между моделями, и несколько широко используемых моделей показывают низкие результаты в сложных, насыщенных инструментами средах LiveMCPBench. В целом, LiveMCPBench предлагает первую унифицированную структуру для тестирования LLM-агентов в реалистичных, насыщенных инструментами и динамичных средах MCP, закладывая прочную основу для масштабируемых и воспроизводимых исследований возможностей агентов. Наш код и данные будут общедоступны по адресу https://icip-cas.github.io/LiveMCPBench.
English
With the rapid development of Model Context Protocol (MCP), the number of MCP
servers has surpassed 10,000. However, existing MCP benchmarks are limited to
single-server settings with only a few tools, hindering effective evaluation of
agent capabilities in large-scale, real-world scenarios. To address this
limitation, we present LiveMCPBench, the first comprehensive benchmark
comprising 95 real-world tasks grounded in the MCP ecosystem, designed to
evaluate LLM agents at scale across diverse servers. To support a scalable and
reproducible evaluation pipeline in large-scale MCP environments, we curate
LiveMCPTool, a diverse and readily deployable collection of 70 MCP servers and
527 tools. Furthermore, we introduce LiveMCPEval, an LLM-as-a-Judge framework
that enables automated and adaptive evaluation in dynamic, time-varying task
environments, achieving 81% agreement with human reviewers. Finally, we propose
the MCP Copilot Agent, a multi-step agent that routes tools for dynamic
planning and executes tools for API interaction across the entire LiveMCPTool
suite. Our evaluation covers 10 leading models, with the best-performing model
(Claude-Sonnet-4) reaching a 78.95% success rate. However, we observe large
performance variance across models, and several widely-used models perform
poorly in LiveMCPBench's complex, tool-rich environments. Overall, LiveMCPBench
offers the first unified framework for benchmarking LLM agents in realistic,
tool-rich, and dynamic MCP environments, laying a solid foundation for scalable
and reproducible research on agent capabilities. Our code and data will be
publicly available at https://icip-cas.github.io/LiveMCPBench.