ChatPaper.aiChatPaper

모델 컨텍스트 프로토콜(MCP) 도구 설명은 문제가 많다! 향상된 MCP 도구 설명을 통해 AI 에이전트 효율성 개선을 위한 제언

Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

February 16, 2026
저자: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

초록

Model Context Protocol(MCP)은 파운데이션 모델(FM) 기반 에이전트가 도구 호출을 통해 외부 시스템과 상호작용하는 방식을 정의하는 표준 사양을 제시합니다. 그러나 FM은 도구의 목적과 기능을 이해하기 위해 자연어 도구 설명에 의존하므로, 이러한 설명은 FM이 주어진 (하위)작업에 최적의 도구를 선택하고 적절한 인수를 도구에 전달하도록 안내하는 중요한 구성 요소입니다. 이러한 설명에 결함이나 문제가 있는 경우 FM 기반 에이전트를 오도할 수 있지만, MCP 생태계 내에서 이러한 문제의 보편성과 결과는 여전히 불분명합니다. 이에 우리는 103개의 MCP 서버에 분포된 856개 도구를 실증적으로 조사하고, 그 설명의 품질과 에이전트 성능에 미치는 영향을 평가합니다. 우리는 문헌에서 도구 설명의 6가지 구성 요소를 식별하고, 이러한 구성 요소를 활용한 채점 기준을 개발한 후, 이 기준을 바탕으로 도구 설명 문제를 형식화합니다. FM 기반 스캐너를 통해 이 기준을 운영화한 결과, 분석된 도구 설명의 97.1%가 적어도 하나의 문제를 포함하고 있으며, 56%는 자신의 목적을 명확히 밝히지 못하는 것으로 나타났습니다. 이러한 설명을 모든 구성 요소에 대해 보강할 경우 작업 성공률이 중앙값 기준 5.85%p, 부분 목표 달성률이 15.12% 개선되지만, 실행 단계 수는 67.46% 증가하고 16.67%의 사례에서 성능이 저하되었습니다. 이러한 결과는 성능 향상을 달성하는 것이 단순하지 않음을 시사합니다. 실행 비용이 트레이드오프 역할을 할 수 있는 반면, 실행 컨텍스트도 영향을 미칠 수 있습니다. 더 나아가, 구성 요소 제거 실험을 통해 서로 다른 구성 요소 조합의 간결한 변형이 종종 행동 신뢰성을 유지하면서 불필요한 토큰 오버헤드를 줄여 FM 컨텍스트 창을 더 효율적으로 사용하고 실행 비용을 낮출 수 있음을 보여줍니다.
English
The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear. Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.
PDF22February 27, 2026