ChatPaper.aiChatPaper

TheMCPCompany : Création d'agents polyvalents dotés d'outils spécifiques à des tâches

TheMCPCompany: Creating General-purpose Agents with Task-specific Tools

October 22, 2025
papers.authors: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI

papers.abstract

Depuis l'introduction du Protocole de Contexte Modèle (MCP), le nombre d'outils disponibles pour les modèles de langage de grande taille (LLMs) a considérablement augmenté. Ces ensembles d'outils spécifiques à des tâches offrent une alternative aux outils généralistes tels que les navigateurs web, tout en étant plus faciles à développer et à maintenir que les interfaces graphiques. Cependant, les agents généralistes actuels reposent principalement sur les navigateurs web pour interagir avec leur environnement. Ici, nous présentons TheMCPCompany, un benchmark pour évaluer les agents d'appel d'outils sur des tâches impliquant l'interaction avec divers services réels. Nous utilisons les API REST de ces services pour créer des serveurs MCP, qui incluent plus de 18 000 outils. Nous fournissons également des outils de référence annotés manuellement pour chaque tâche. Dans nos expériences, nous utilisons ces outils de référence pour montrer le potentiel des agents d'appel d'outils à la fois pour améliorer les performances et réduire les coûts, en supposant une récupération parfaite des outils. Ensuite, nous explorons la performance des agents en utilisant la récupération d'outils pour étudier la praticabilité réelle des agents basés sur des outils. Bien que tous les modèles avec récupération d'outils performent de manière similaire ou meilleure que les agents basés sur des navigateurs, les modèles plus petits ne peuvent pas pleinement tirer parti des outils disponibles via la récupération. D'autre part, la performance de GPT-5 avec récupération d'outils est très proche de sa performance avec les outils de référence. Globalement, notre travail montre que les modèles de raisonnement les plus avancés sont efficaces pour découvrir des outils dans des environnements simples, mais rencontrent de sérieuses difficultés à naviguer dans des environnements d'entreprise complexes. TheMCPCompany révèle que naviguer parmi des dizaines de milliers d'outils et les combiner de manière non triviale pour résoudre des problèmes complexes reste une tâche difficile pour les modèles actuels et nécessite à la fois de meilleurs modèles de raisonnement et de récupération.
English
Since the introduction of the Model Context Protocol (MCP), the number of available tools for Large Language Models (LLMs) has increased significantly. These task-specific tool sets offer an alternative to general-purpose tools such as web browsers, while being easier to develop and maintain than GUIs. However, current general-purpose agents predominantly rely on web browsers for interacting with the environment. Here, we introduce TheMCPCompany, a benchmark for evaluating tool-calling agents on tasks that involve interacting with various real-world services. We use the REST APIs of these services to create MCP servers, which include over 18,000 tools. We also provide manually annotated ground-truth tools for each task. In our experiments, we use the ground truth tools to show the potential of tool-calling agents for both improving performance and reducing costs assuming perfect tool retrieval. Next, we explore agent performance using tool retrieval to study the real-world practicality of tool-based agents. While all models with tool retrieval perform similarly or better than browser-based agents, smaller models cannot take full advantage of the available tools through retrieval. On the other hand, GPT-5's performance with tool retrieval is very close to its performance with ground-truth tools. Overall, our work shows that the most advanced reasoning models are effective at discovering tools in simpler environments, but seriously struggle with navigating complex enterprise environments. TheMCPCompany reveals that navigating tens of thousands of tools and combining them in non-trivial ways to solve complex problems is still a challenging task for current models and requires both better reasoning and better retrieval models.
PDF41October 23, 2025