TheMCPCompany: Создание универсальных агентов с инструментами для конкретных задач
TheMCPCompany: Creating General-purpose Agents with Task-specific Tools
October 22, 2025
Авторы: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI
Аннотация
С момента появления Model Context Protocol (MCP) количество доступных инструментов для больших языковых моделей (LLM) значительно увеличилось. Эти специализированные наборы инструментов предлагают альтернативу универсальным инструментам, таким как веб-браузеры, при этом их разработка и поддержка проще, чем у графических интерфейсов. Однако современные универсальные агенты в основном полагаются на веб-браузеры для взаимодействия с окружающей средой. В данной работе мы представляем TheMCPCompany — эталонный набор для оценки агентов, вызывающих инструменты, на задачах, связанных с взаимодействием с различными реальными сервисами. Мы используем REST API этих сервисов для создания MCP-серверов, которые включают более 18 000 инструментов. Также мы предоставляем вручную аннотированные эталонные инструменты для каждой задачи. В наших экспериментах мы используем эталонные инструменты, чтобы показать потенциал агентов, вызывающих инструменты, как для повышения производительности, так и для снижения затрат при условии идеального извлечения инструментов. Затем мы исследуем производительность агентов с использованием извлечения инструментов, чтобы изучить практическую применимость инструмент-ориентированных агентов в реальных условиях. Хотя все модели с извлечением инструментов показывают схожую или лучшую производительность по сравнению с агентами, использующими браузеры, меньшие модели не могут в полной мере воспользоваться доступными инструментами через извлечение. С другой стороны, производительность GPT-5 с извлечением инструментов очень близка к её производительности с эталонными инструментами. В целом наша работа показывает, что наиболее продвинутые модели рассуждений эффективны в обнаружении инструментов в простых средах, но испытывают серьёзные трудности при навигации в сложных корпоративных средах. TheMCPCompany демонстрирует, что навигация по десяткам тысяч инструментов и их нетривиальное комбинирование для решения сложных задач остаётся сложной задачей для современных моделей и требует как улучшенных моделей рассуждений, так и моделей извлечения.
English
Since the introduction of the Model Context Protocol (MCP), the number of
available tools for Large Language Models (LLMs) has increased significantly.
These task-specific tool sets offer an alternative to general-purpose tools
such as web browsers, while being easier to develop and maintain than GUIs.
However, current general-purpose agents predominantly rely on web browsers for
interacting with the environment. Here, we introduce TheMCPCompany, a benchmark
for evaluating tool-calling agents on tasks that involve interacting with
various real-world services. We use the REST APIs of these services to create
MCP servers, which include over 18,000 tools. We also provide manually
annotated ground-truth tools for each task. In our experiments, we use the
ground truth tools to show the potential of tool-calling agents for both
improving performance and reducing costs assuming perfect tool retrieval. Next,
we explore agent performance using tool retrieval to study the real-world
practicality of tool-based agents. While all models with tool retrieval perform
similarly or better than browser-based agents, smaller models cannot take full
advantage of the available tools through retrieval. On the other hand, GPT-5's
performance with tool retrieval is very close to its performance with
ground-truth tools. Overall, our work shows that the most advanced reasoning
models are effective at discovering tools in simpler environments, but
seriously struggle with navigating complex enterprise environments.
TheMCPCompany reveals that navigating tens of thousands of tools and combining
them in non-trivial ways to solve complex problems is still a challenging task
for current models and requires both better reasoning and better retrieval
models.