ChatPaper.aiChatPaper

Les descriptions d'outils MCP (Model Context Protocol) sentent mauvais ! Vers l'amélioration de l'efficacité des agents IA avec des descriptions d'outils MCP augmentées

Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

February 16, 2026
papers.authors: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

papers.abstract

Le protocole de contexte de modèle (MCP) introduit une spécification standard qui définit comment les agents basés sur des modèles de fondation (FM) doivent interagir avec des systèmes externes en invoquant des outils. Cependant, pour comprendre l'objectif et les fonctionnalités d'un outil, les FM s'appuient sur des descriptions en langage naturel, ce qui rend ces descriptions essentielles pour guider les FM à sélectionner l'outil optimal pour une (sous-)tâche donnée et à transmettre les bons arguments à l'outil. Bien que des défauts ou des anomalies dans ces descriptions puissent induire en erreur les agents basés sur des FM, leur prévalence et leurs conséquences dans l'écosystème MCP restent floues. Par conséquent, nous examinons empiriquement 856 outils répartis sur 103 serveurs MCP, évaluons la qualité de leurs descriptions et leur impact sur les performances des agents. Nous identifions six composants des descriptions d'outils à partir de la littérature, développons une grille d'évaluation utilisant ces composants, puis formalisons des anomalies de description d'outils basées sur cette grille. En opérationnalisant cette grille via un scanner basé sur un FM, nous constatons que 97,1 % des descriptions d'outils analysées contiennent au moins une anomalie, 56 % d'entre elles ne parvenant pas à énoncer clairement leur objectif. Bien que l'augmentation de ces descriptions pour tous les composants améliore les taux de réussite des tâches d'une médiane de 5,85 points de pourcentage et améliore l'achèvement partiel des objectifs de 15,12 %, elle augmente également le nombre d'étapes d'exécution de 67,46 % et dégrade les performances dans 16,67 % des cas. Ces résultats indiquent qu'obtenir des gains de performance n'est pas simple ; si le coût d'exécution peut constituer un compromis, le contexte d'exécution peut également avoir un impact. De plus, des ablations de composants montrent que des variantes compactes de différentes combinaisons de composants préservent souvent la fiabilité comportementale tout en réduisant la surcharge inutile de tokens, permettant une utilisation plus efficace de la fenêtre de contexte du FM et des coûts d'exécution réduits.
English
The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear. Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.
PDF22February 27, 2026