TheMCPCompany: Het ontwikkelen van algemene agents met taakspecifieke tools
TheMCPCompany: Creating General-purpose Agents with Task-specific Tools
October 22, 2025
Auteurs: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI
Samenvatting
Sinds de introductie van het Model Context Protocol (MCP) is het aantal beschikbare tools voor Large Language Models (LLM's) aanzienlijk toegenomen. Deze taakspecifieke toolset biedt een alternatief voor algemene tools zoals webbrowsers, terwijl ze eenvoudiger te ontwikkelen en te onderhouden zijn dan GUI's. Huidige algemene agents vertrouwen echter voornamelijk op webbrowsers om met de omgeving te interacteren. Hier introduceren we TheMCPCompany, een benchmark voor het evalueren van tool-aanroepende agents bij taken die interactie met verschillende real-world services omvatten. We gebruiken de REST API's van deze services om MCP-servers te creëren, die meer dan 18.000 tools bevatten. We bieden ook handmatig geannoteerde grondwaarheid-tools voor elke taak. In onze experimenten gebruiken we de grondwaarheid-tools om het potentieel van tool-aanroepende agents te laten zien, zowel voor het verbeteren van prestaties als het verlagen van kosten, uitgaande van perfecte toolretrieval. Vervolgens onderzoeken we de prestaties van agents met toolretrieval om de praktische bruikbaarheid van tool-gebaseerde agents in de echte wereld te bestuderen. Hoewel alle modellen met toolretrieval vergelijkbaar of beter presteren dan browser-gebaseerde agents, kunnen kleinere modellen niet volledig profiteren van de beschikbare tools via retrieval. Aan de andere kant ligt de prestatie van GPT-5 met toolretrieval zeer dicht bij zijn prestatie met grondwaarheid-tools. Over het algemeen toont ons werk aan dat de meest geavanceerde redeneermodellen effectief zijn in het ontdekken van tools in eenvoudigere omgevingen, maar ernstig worstelen met het navigeren in complexe bedrijfsomgevingen. TheMCPCompany onthult dat het navigeren door tienduizenden tools en het combineren ervan op niet-triviale manieren om complexe problemen op te lossen nog steeds een uitdagende taak is voor huidige modellen en zowel betere redeneer- als betere retrievalmodellen vereist.
English
Since the introduction of the Model Context Protocol (MCP), the number of
available tools for Large Language Models (LLMs) has increased significantly.
These task-specific tool sets offer an alternative to general-purpose tools
such as web browsers, while being easier to develop and maintain than GUIs.
However, current general-purpose agents predominantly rely on web browsers for
interacting with the environment. Here, we introduce TheMCPCompany, a benchmark
for evaluating tool-calling agents on tasks that involve interacting with
various real-world services. We use the REST APIs of these services to create
MCP servers, which include over 18,000 tools. We also provide manually
annotated ground-truth tools for each task. In our experiments, we use the
ground truth tools to show the potential of tool-calling agents for both
improving performance and reducing costs assuming perfect tool retrieval. Next,
we explore agent performance using tool retrieval to study the real-world
practicality of tool-based agents. While all models with tool retrieval perform
similarly or better than browser-based agents, smaller models cannot take full
advantage of the available tools through retrieval. On the other hand, GPT-5's
performance with tool retrieval is very close to its performance with
ground-truth tools. Overall, our work shows that the most advanced reasoning
models are effective at discovering tools in simpler environments, but
seriously struggle with navigating complex enterprise environments.
TheMCPCompany reveals that navigating tens of thousands of tools and combining
them in non-trivial ways to solve complex problems is still a challenging task
for current models and requires both better reasoning and better retrieval
models.