TheMCPCompany: Creazione di Agenti a Scopo Generale con Strumenti Specifici per Compiti
TheMCPCompany: Creating General-purpose Agents with Task-specific Tools
October 22, 2025
Autori: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI
Abstract
Dall'introduzione del Model Context Protocol (MCP), il numero di strumenti disponibili per i Large Language Models (LLM) è aumentato significativamente. Questi set di strumenti specifici per task offrono un'alternativa agli strumenti generici come i browser web, risultando più semplici da sviluppare e mantenere rispetto alle interfacce grafiche (GUI). Tuttavia, gli agenti generici attuali si basano principalmente sui browser web per interagire con l'ambiente. Qui presentiamo TheMCPCompany, un benchmark per valutare gli agenti che richiamano strumenti su task che implicano l'interazione con vari servizi del mondo reale. Utilizziamo le API REST di questi servizi per creare server MCP, che includono oltre 18.000 strumenti. Forniamo inoltre strumenti di riferimento annotati manualmente per ciascun task. Nei nostri esperimenti, utilizziamo gli strumenti di riferimento per dimostrare il potenziale degli agenti che richiamano strumenti sia nel migliorare le prestazioni che nel ridurre i costi, assumendo un recupero perfetto degli strumenti. Successivamente, esploriamo le prestazioni degli agenti utilizzando il recupero degli strumenti per studiare l'effettiva praticità degli agenti basati su strumenti nel mondo reale. Mentre tutti i modelli con recupero degli strumenti performano in modo simile o migliore rispetto agli agenti basati su browser, i modelli più piccoli non riescono a sfruttare appieno gli strumenti disponibili tramite il recupero. D'altra parte, le prestazioni di GPT-5 con il recupero degli strumenti sono molto vicine a quelle ottenute con gli strumenti di riferimento. Nel complesso, il nostro lavoro dimostra che i modelli di ragionamento più avanzati sono efficaci nel scoprire strumenti in ambienti più semplici, ma incontrano serie difficoltà nel navigare ambienti aziendali complessi. TheMCPCompany rivela che navigare tra decine di migliaia di strumenti e combinarli in modi non banali per risolvere problemi complessi rimane un compito impegnativo per i modelli attuali e richiede sia un migliore ragionamento che modelli di recupero più efficaci.
English
Since the introduction of the Model Context Protocol (MCP), the number of
available tools for Large Language Models (LLMs) has increased significantly.
These task-specific tool sets offer an alternative to general-purpose tools
such as web browsers, while being easier to develop and maintain than GUIs.
However, current general-purpose agents predominantly rely on web browsers for
interacting with the environment. Here, we introduce TheMCPCompany, a benchmark
for evaluating tool-calling agents on tasks that involve interacting with
various real-world services. We use the REST APIs of these services to create
MCP servers, which include over 18,000 tools. We also provide manually
annotated ground-truth tools for each task. In our experiments, we use the
ground truth tools to show the potential of tool-calling agents for both
improving performance and reducing costs assuming perfect tool retrieval. Next,
we explore agent performance using tool retrieval to study the real-world
practicality of tool-based agents. While all models with tool retrieval perform
similarly or better than browser-based agents, smaller models cannot take full
advantage of the available tools through retrieval. On the other hand, GPT-5's
performance with tool retrieval is very close to its performance with
ground-truth tools. Overall, our work shows that the most advanced reasoning
models are effective at discovering tools in simpler environments, but
seriously struggle with navigating complex enterprise environments.
TheMCPCompany reveals that navigating tens of thousands of tools and combining
them in non-trivial ways to solve complex problems is still a challenging task
for current models and requires both better reasoning and better retrieval
models.