モデルコンテキストプロトコル(MCP)ツール記述の改善:拡張されたMCPツール記述によるAIエージェント効率化に向けて
Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions
February 16, 2026
著者: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI
要旨
モデルコンテキストプロトコル(MCP)は、ファウンデーションモデル(FM)ベースのエージェントがツールを呼び出すことで外部システムとどのように相互作用すべきかを定義する標準仕様を導入している。しかし、ツールの目的や機能を理解するために、FMは自然言語で記述されたツール記述に依存しており、これらの記述は、FMが所与の(副)タスクに対して最適なツールを選択し、ツールに正しい引数を渡すように導く上で極めて重要な構成要素となっている。これらの記述に欠陥や不適切な点(スメル)があるとFMベースのエージェントを誤導する可能性があるが、MCPエコシステムにおけるそれらの普遍性と結果は未だ不明である。
そこで我々は、103のMCPサーバーに分散する856のツールを実証的に調査し、それらの記述品質とエージェント性能への影響を評価する。文献からツール記述の6つの構成要素を特定し、これらの要素を利用した採点基準を開発した上で、この基準に基づいてツール記述スメルを形式化する。FMベースのスキャナーを用いてこの基準を運用化した結果、分析対象のツール記述の97.1%が少なくとも1つのスメルを含み、56%は目的を明確に述べていないことがわかった。これらの記述を全構成要素に対して増強すると、タスク成功率は中央値で5.85パーセントポイント向上し、部分目標達成率は15.12%改善するが、実行ステップ数は67.46%増加し、16.67%のケースで性能が悪化する。これらの結果は、性能向上の達成が単純ではないことを示している。実行コストがトレードオフとして働く可能性がある一方で、実行コンテキストも影響を与え得る。さらに、構成要素のアブレーション研究により、異なる構成要素の組み合わせからなるコンパクトな変種は、不必要なトークンオーバーヘッドを削減しつつ、動作の信頼性をしばしば維持できることが示された。これにより、FMのコンテキストウィンドウをより効率的に利用でき、実行コストを低減できる。
English
The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear.
Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.