TheMCPCompany: Criando Agentes de Propósito Geral com Ferramentas Específicas para Tarefas
TheMCPCompany: Creating General-purpose Agents with Task-specific Tools
October 22, 2025
Autores: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI
Resumo
Desde a introdução do Protocolo de Contexto de Modelo (MCP), o número de ferramentas disponíveis para Modelos de Linguagem de Grande Escala (LLMs) aumentou significativamente. Esses conjuntos de ferramentas específicas para tarefas oferecem uma alternativa às ferramentas de propósito geral, como navegadores da web, ao mesmo tempo em que são mais fáceis de desenvolver e manter do que interfaces gráficas de usuário (GUIs). No entanto, os agentes de propósito geral atuais dependem predominantemente de navegadores da web para interagir com o ambiente. Aqui, apresentamos TheMCPCompany, um benchmark para avaliar agentes de chamada de ferramentas em tarefas que envolvem interação com diversos serviços do mundo real. Utilizamos as APIs REST desses serviços para criar servidores MCP, que incluem mais de 18.000 ferramentas. Também fornecemos ferramentas de verdade fundamental (ground-truth) anotadas manualmente para cada tarefa. Em nossos experimentos, usamos as ferramentas de verdade fundamental para mostrar o potencial dos agentes de chamada de ferramentas tanto para melhorar o desempenho quanto para reduzir custos, assumindo uma recuperação perfeita de ferramentas. Em seguida, exploramos o desempenho dos agentes usando recuperação de ferramentas para estudar a praticidade no mundo real dos agentes baseados em ferramentas. Embora todos os modelos com recuperação de ferramentas tenham desempenho semelhante ou superior aos agentes baseados em navegadores, modelos menores não conseguem aproveitar totalmente as ferramentas disponíveis por meio da recuperação. Por outro lado, o desempenho do GPT-5 com recuperação de ferramentas é muito próximo ao seu desempenho com ferramentas de verdade fundamental. No geral, nosso trabalho mostra que os modelos de raciocínio mais avançados são eficazes em descobrir ferramentas em ambientes mais simples, mas enfrentam sérias dificuldades para navegar em ambientes empresariais complexos. TheMCPCompany revela que navegar por dezenas de milhares de ferramentas e combiná-las de maneiras não triviais para resolver problemas complexos ainda é uma tarefa desafiadora para os modelos atuais e requer tanto modelos de raciocínio quanto de recuperação melhores.
English
Since the introduction of the Model Context Protocol (MCP), the number of
available tools for Large Language Models (LLMs) has increased significantly.
These task-specific tool sets offer an alternative to general-purpose tools
such as web browsers, while being easier to develop and maintain than GUIs.
However, current general-purpose agents predominantly rely on web browsers for
interacting with the environment. Here, we introduce TheMCPCompany, a benchmark
for evaluating tool-calling agents on tasks that involve interacting with
various real-world services. We use the REST APIs of these services to create
MCP servers, which include over 18,000 tools. We also provide manually
annotated ground-truth tools for each task. In our experiments, we use the
ground truth tools to show the potential of tool-calling agents for both
improving performance and reducing costs assuming perfect tool retrieval. Next,
we explore agent performance using tool retrieval to study the real-world
practicality of tool-based agents. While all models with tool retrieval perform
similarly or better than browser-based agents, smaller models cannot take full
advantage of the available tools through retrieval. On the other hand, GPT-5's
performance with tool retrieval is very close to its performance with
ground-truth tools. Overall, our work shows that the most advanced reasoning
models are effective at discovering tools in simpler environments, but
seriously struggle with navigating complex enterprise environments.
TheMCPCompany reveals that navigating tens of thousands of tools and combining
them in non-trivial ways to solve complex problems is still a challenging task
for current models and requires both better reasoning and better retrieval
models.