Le Descrizioni degli Strumenti MCP (Model Context Protocol) Puzzano! Verso il Miglioramento dell'Efficienza degli Agenti IA con Descrizioni degli Strumenti MCP Arricchite
Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions
February 16, 2026
Autori: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI
Abstract
Il Model Context Protocol (MCP) introduce una specifica standard che definisce come gli agenti basati su Modelli Fondamentali (FM) dovrebbero interagire con sistemi esterni invocando strumenti. Tuttavia, per comprendere lo scopo e le caratteristiche di uno strumento, gli FM si affidano a descrizioni in linguaggio naturale, rendendo queste descrizioni un componente critico per guidare gli FM nella selezione dello strumento ottimale per un dato (sotto)compito e nel passaggio degli argomenti corretti allo strumento. Sebbene difetti o "code smells" in queste descrizioni possano fuorviare gli agenti basati su FM, la loro prevalenza e le conseguenze nell'ecosistema MCP rimangono poco chiare.
Pertanto, esaminiamo empiricamente 856 strumenti distribuiti su 103 server MCP, ne valutiamo la qualità delle descrizioni e il loro impatto sulle prestazioni degli agenti. Identifichiamo sei componenti delle descrizioni degli strumenti dalla letteratura, sviluppiamo una griglia di valutazione utilizzando questi componenti e quindi formalizziamo i "code smells" delle descrizioni degli strumenti basandoci su questa griglia. Operazionalizzando questa griglia attraverso uno scanner basato su FM, scopriamo che il 97,1% delle descrizioni di strumenti analizzate contiene almeno un "code smell", con il 56% che non riesce a dichiarare chiaramente il proprio scopo. Sebbene l'arricchimento di queste descrizioni per tutti i componenti migliori i tassi di successo del compito di una mediana di 5,85 punti percentuali e migliori il completamento parziale dell'obiettivo del 15,12%, aumenta anche il numero di passi di esecuzione del 67,46% e peggiora le prestazioni nel 16,67% dei casi. Questi risultati indicano che ottenere guadagni prestazionali non è semplice; sebbene il costo di esecuzione possa fungere da compromesso, anche il contesto esecutivo può avere un impatto. Inoltre, le ablazioni dei componenti mostrano che varianti compatte di diverse combinazioni di componenti spesso preservano l'affidabilità comportamentale riducendo al contempo l'overhead non necessario dei token, consentendo un uso più efficiente della finestra di contesto dell'FM e costi di esecuzione inferiori.
English
The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear.
Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.