ChatPaper.aiChatPaper

Modellkontextprotokoll (MCP) Tool-Beschreibungen stinken! Auf dem Weg zu einer verbesserten KI-Agenten-Effizienz durch augmentierte MCP Tool-Beschreibungen

Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

February 16, 2026
papers.authors: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

papers.abstract

Das Model Context Protocol (MCP) führt eine Standardspezifikation ein, die definiert, wie agentenbasierte Foundation Models (FMs) durch den Aufruf von Werkzeugen mit externen Systemen interagieren sollen. Um jedoch den Zweck und die Funktionen eines Werkzeugs zu verstehen, sind FMs auf natürlichsprachige Werkzeugbeschreibungen angewiesen, was diese Beschreibungen zu einer kritischen Komponente macht, um FMs dabei zu leiten, das optimale Werkzeug für eine gegebene (Teil-)Aufgabe auszuwählen und die richtigen Argumente an das Werkzeug zu übergeben. Während Defekte oder "Smells" in diesen Beschreibungen FM-basierte Agenten fehlleiten können, sind deren Verbreitung und Konsequenzen im MCP-Ökosystem noch unklar. Daher untersuchen wir empirisch 856 Werkzeuge aus 103 MCP-Servern, bewerten deren Beschreibungsqualität und deren Auswirkung auf die Agentenleistung. Wir identifizieren sechs Komponenten von Werkzeugbeschreibungen aus der Literatur, entwickeln ein Bewertungsschema unter Verwendung dieser Komponenten und formalisieren darauf aufbauend "Tool Description Smells". Durch die Operationalisierung dieses Schemas mittels eines FM-basierten Scanners stellen wir fest, dass 97,1 % der analysierten Werkzeugbeschreibungen mindestens einen Smell enthalten, wobei 56 % ihren Zweck nicht klar angeben. Während eine Erweiterung dieser Beschreibungen um alle Komponenten die Aufgabenerfolgsrate median um 5,85 Prozentpunkte steigert und die partielle Zielerreichung um 15,12 % verbessert, erhöht sie auch die Anzahl der Ausführungsschritte um 67,46 % und verschlechtert die Leistung in 16,67 % der Fälle. Diese Ergebnisse deuten darauf hin, dass Leistungssteigerungen nicht einfach zu erreichen sind; während Ausführungskosten als Kompromiss dienen können, kann auch der Ausführungskontext einen Einfluss haben. Darüber hinaus zeigen Komponentenablationen, dass kompakte Varianten verschiedener Komponentenkombinationen oft die Verhaltenszuverlässigkeit bewahren, während sie unnötigen Token-Overhead reduzieren, was eine effizientere Nutzung des FM-Kontextfensters und niedrigere Ausführungskosten ermöglicht.
English
The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear. Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.
PDF22February 27, 2026