TheMCPCompany: Entwicklung allgemeiner Agenten mit aufgabenbezogenen Werkzeugen
TheMCPCompany: Creating General-purpose Agents with Task-specific Tools
October 22, 2025
papers.authors: Reza Esfandiarpoor, Vishwas Suryanarayanan, Stephen H. Bach, Vishal Chowdhary, Anthony Aue
cs.AI
papers.abstract
Seit der Einführung des Model Context Protocol (MCP) hat die Anzahl der verfügbaren Werkzeuge für Large Language Models (LLMs) erheblich zugenommen. Diese aufgabenbezogenen Werkzeugsets bieten eine Alternative zu universellen Werkzeugen wie Webbrowsern und sind dabei einfacher zu entwickeln und zu pflegen als grafische Benutzeroberflächen (GUIs). Allerdings verlassen sich aktuelle universelle Agenten überwiegend auf Webbrowser, um mit der Umgebung zu interagieren. Hier stellen wir TheMCPCompany vor, einen Benchmark zur Bewertung von Werkzeug-aufrufenden Agenten bei Aufgaben, die die Interaktion mit verschiedenen realen Diensten beinhalten. Wir nutzen die REST-APIs dieser Dienste, um MCP-Server zu erstellen, die über 18.000 Werkzeuge umfassen. Zudem stellen wir manuell annotierte Ground-Truth-Werkzeuge für jede Aufgabe bereit. In unseren Experimenten verwenden wir die Ground-Truth-Werkzeuge, um das Potenzial von Werkzeug-aufrufenden Agenten sowohl zur Leistungssteigerung als auch zur Kostensenkung unter der Annahme einer perfekten Werkzeugabfrage zu demonstrieren. Anschließend untersuchen wir die Leistung von Agenten mithilfe der Werkzeugabfrage, um die praktische Anwendbarkeit von werkzeugbasierten Agenten in der realen Welt zu studieren. Während alle Modelle mit Werkzeugabfrage ähnlich oder besser abschneiden als browserbasierte Agenten, können kleinere Modelle die verfügbaren Werkzeuge durch Abfrage nicht vollständig nutzen. Andererseits liegt die Leistung von GPT-5 mit Werkzeugabfrage sehr nahe an seiner Leistung mit Ground-Truth-Werkzeugen. Insgesamt zeigt unsere Arbeit, dass die fortschrittlichsten Reasoning-Modelle effektiv darin sind, Werkzeuge in einfacheren Umgebungen zu entdecken, jedoch erhebliche Schwierigkeiten haben, sich in komplexen Unternehmensumgebungen zurechtzufinden. TheMCPCompany offenbart, dass die Navigation durch Zehntausende von Werkzeugen und deren nicht-triviale Kombination zur Lösung komplexer Probleme für aktuelle Modelle nach wie vor eine Herausforderung darstellt und sowohl bessere Reasoning- als auch bessere Abfragemodelle erfordert.
English
Since the introduction of the Model Context Protocol (MCP), the number of
available tools for Large Language Models (LLMs) has increased significantly.
These task-specific tool sets offer an alternative to general-purpose tools
such as web browsers, while being easier to develop and maintain than GUIs.
However, current general-purpose agents predominantly rely on web browsers for
interacting with the environment. Here, we introduce TheMCPCompany, a benchmark
for evaluating tool-calling agents on tasks that involve interacting with
various real-world services. We use the REST APIs of these services to create
MCP servers, which include over 18,000 tools. We also provide manually
annotated ground-truth tools for each task. In our experiments, we use the
ground truth tools to show the potential of tool-calling agents for both
improving performance and reducing costs assuming perfect tool retrieval. Next,
we explore agent performance using tool retrieval to study the real-world
practicality of tool-based agents. While all models with tool retrieval perform
similarly or better than browser-based agents, smaller models cannot take full
advantage of the available tools through retrieval. On the other hand, GPT-5's
performance with tool retrieval is very close to its performance with
ground-truth tools. Overall, our work shows that the most advanced reasoning
models are effective at discovering tools in simpler environments, but
seriously struggle with navigating complex enterprise environments.
TheMCPCompany reveals that navigating tens of thousands of tools and combining
them in non-trivial ways to solve complex problems is still a challenging task
for current models and requires both better reasoning and better retrieval
models.