TheMCPCompany: Creación de agentes de propósito general con herramientas específicas para tareas
TheMCPCompany: Creating General-purpose Agents with Task-specific Tools
October 22, 2025
Autores: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI
Resumen
Desde la introducción del Protocolo de Contexto del Modelo (MCP), el número de herramientas disponibles para los Modelos de Lenguaje de Gran Escala (LLMs) ha aumentado significativamente. Estos conjuntos de herramientas específicas para tareas ofrecen una alternativa a las herramientas de propósito general, como los navegadores web, al mismo tiempo que son más fáciles de desarrollar y mantener que las interfaces gráficas de usuario (GUIs). Sin embargo, los agentes de propósito general actuales dependen predominantemente de los navegadores web para interactuar con el entorno. Aquí presentamos TheMCPCompany, un punto de referencia para evaluar agentes que llaman herramientas en tareas que implican interactuar con diversos servicios del mundo real. Utilizamos las API REST de estos servicios para crear servidores MCP, que incluyen más de 18,000 herramientas. También proporcionamos herramientas de verdad fundamental (ground-truth) anotadas manualmente para cada tarea. En nuestros experimentos, utilizamos las herramientas de verdad fundamental para demostrar el potencial de los agentes que llaman herramientas tanto para mejorar el rendimiento como para reducir los costos, asumiendo una recuperación perfecta de herramientas. A continuación, exploramos el rendimiento de los agentes utilizando la recuperación de herramientas para estudiar la practicidad en el mundo real de los agentes basados en herramientas. Si bien todos los modelos con recuperación de herramientas tienen un rendimiento similar o mejor que los agentes basados en navegadores, los modelos más pequeños no pueden aprovechar al máximo las herramientas disponibles a través de la recuperación. Por otro lado, el rendimiento de GPT-5 con recuperación de herramientas es muy cercano a su rendimiento con las herramientas de verdad fundamental. En general, nuestro trabajo muestra que los modelos de razonamiento más avanzados son efectivos para descubrir herramientas en entornos más simples, pero tienen serias dificultades para navegar en entornos empresariales complejos. TheMCPCompany revela que navegar entre decenas de miles de herramientas y combinarlas de maneras no triviales para resolver problemas complejos sigue siendo una tarea desafiante para los modelos actuales y requiere tanto mejores modelos de razonamiento como mejores modelos de recuperación.
English
Since the introduction of the Model Context Protocol (MCP), the number of
available tools for Large Language Models (LLMs) has increased significantly.
These task-specific tool sets offer an alternative to general-purpose tools
such as web browsers, while being easier to develop and maintain than GUIs.
However, current general-purpose agents predominantly rely on web browsers for
interacting with the environment. Here, we introduce TheMCPCompany, a benchmark
for evaluating tool-calling agents on tasks that involve interacting with
various real-world services. We use the REST APIs of these services to create
MCP servers, which include over 18,000 tools. We also provide manually
annotated ground-truth tools for each task. In our experiments, we use the
ground truth tools to show the potential of tool-calling agents for both
improving performance and reducing costs assuming perfect tool retrieval. Next,
we explore agent performance using tool retrieval to study the real-world
practicality of tool-based agents. While all models with tool retrieval perform
similarly or better than browser-based agents, smaller models cannot take full
advantage of the available tools through retrieval. On the other hand, GPT-5's
performance with tool retrieval is very close to its performance with
ground-truth tools. Overall, our work shows that the most advanced reasoning
models are effective at discovering tools in simpler environments, but
seriously struggle with navigating complex enterprise environments.
TheMCPCompany reveals that navigating tens of thousands of tools and combining
them in non-trivial ways to solve complex problems is still a challenging task
for current models and requires both better reasoning and better retrieval
models.