¡Las Descripciones de Herramientas del Protocolo de Contexto del Modelo (MCP) Huelen Mal! Hacia la Mejora de la Eficiencia de los Agentes de IA con Descripciones de Herramientas MCP Aumentadas
Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions
February 16, 2026
Autores: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI
Resumen
El Model Context Protocol (MCP) introduce una especificación estándar que define cómo los agentes basados en Modelos Fundacionales (FM) deben interactuar con sistemas externos mediante la invocación de herramientas. Sin embargo, para comprender el propósito y las características de una herramienta, los FM dependen de descripciones de herramientas en lenguaje natural, lo que convierte a estas descripciones en un componente crítico para guiar a los FM a seleccionar la herramienta óptima para una (sub)tarea dada y pasar los argumentos correctos a la herramienta. Si bien los defectos o "malos olores" (*smells*) en estas descripciones pueden desorientar a los agentes basados en FM, su prevalencia y consecuencias en el ecosistema MCP siguen sin estar claras.
Por lo tanto, examinamos empíricamente 856 herramientas distribuidas en 103 servidores MCP, evaluamos la calidad de sus descripciones y su impacto en el rendimiento del agente. Identificamos seis componentes de las descripciones de herramientas a partir de la literatura, desarrollamos una rúbrica de puntuación utilizando estos componentes y luego formalizamos los "malos olores" en las descripciones de herramientas basándonos en esta rúbrica. Al operacionalizar esta rúbrica mediante un escáner basado en FM, encontramos que el 97.1% de las descripciones de herramientas analizadas contienen al menos un "mal olor", y el 56% no logra enunciar su propósito con claridad. Si bien aumentar (*augmenting*) estas descripciones para todos los componentes mejora las tasas de éxito de las tareas en una mediana de 5.85 puntos porcentuales y mejora la finalización parcial de objetivos en un 15.12%, también aumenta el número de pasos de ejecución en un 67.46% y empeora el rendimiento en el 16.67% de los casos. Estos resultados indican que lograr ganancias de rendimiento no es sencillo; si bien el costo de ejecución puede actuar como una compensación (*trade-off*), el contexto de ejecución también puede influir. Además, las ablaciones de componentes muestran que las variantes compactas de diferentes combinaciones de componentes a menudo preservan la confiabilidad del comportamiento mientras reducen la sobrecarga innecesaria de *tokens*, permitiendo un uso más eficiente de la ventana de contexto del FM y costos de ejecución más bajos.
English
The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear.
Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.