ChatPaper.aiChatPaper

野生環境におけるエージェントスキル:大規模セキュリティ脆弱性の実証的研究

Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

January 15, 2026
著者: Yi Liu, Weizhe Wang, Ruitao Feng, Yao Zhang, Guangquan Xu, Gelei Deng, Yuekang Li, Leo Zhang
cs.AI

要旨

AIエージェントフレームワークの台頭に伴い、エージェントスキル(指示と実行可能コードを含むモジュール型パッケージ)が登場し、エージェントの能力を動的に拡張するようになった。このアーキテクチャは強力なカスタマイズを可能にする一方、スキルは暗黙的な信頼と最小限の検証のもとで実行されるため、重大ながら未解明の攻撃対象領域を生み出している。本研究では、この新興エコシステムに対し初の大規模実証的セキュリティ分析を実施した。主要2マーケットプレイスから42,447のスキルを収集し、静的解析とLLMベースの意味分類を統合した多段階検出フレームワーク「SkillScan」を用いて31,132スキルを体系的に分析した。その結果、広範なセキュリティリスクが明らかになった:26.1%のスキルが少なくとも1つの脆弱性を含み、プロンプトインジェクション、データ流出、権限昇格、サプライチェーンリスクの4カテゴリに跨る14の異なるパターンが確認された。データ流出(13.3%)と権限昇格(11.8%)が最も頻繁に見られ、5.2%のスキルは悪意のある意図を強く示唆する高深刻度パターンを呈した。実行可能スクリプトをバンドルするスキルは、指示のみのスキルに比べ脆弱性を含む確率が2.12倍高い(OR=2.12, p<0.001)。本論文の貢献は以下である:(1)8,126の脆弱性含有スキルから導出した実証に基づく脆弱性分類体系、(2)86.7%の精度と82.5%の再現率を達成した検出手法の検証、(3)将来研究を支援するオープンデータセットと検出ツールキット。これらの結果は、この攻撃経路が悪用される前に、能力ベースの許可システムと必須のセキュリティ検証が急務であることを示している。
English
The rise of AI agent frameworks has introduced agent skills, modular packages containing instructions and executable code that dynamically extend agent capabilities. While this architecture enables powerful customization, skills execute with implicit trust and minimal vetting, creating a significant yet uncharacterized attack surface. We conduct the first large-scale empirical security analysis of this emerging ecosystem, collecting 42,447 skills from two major marketplaces and systematically analyzing 31,132 using SkillScan, a multi-stage detection framework integrating static analysis with LLM-based semantic classification. Our findings reveal pervasive security risks: 26.1% of skills contain at least one vulnerability, spanning 14 distinct patterns across four categories: prompt injection, data exfiltration, privilege escalation, and supply chain risks. Data exfiltration (13.3%) and privilege escalation (11.8%) are most prevalent, while 5.2% of skills exhibit high-severity patterns strongly suggesting malicious intent. We find that skills bundling executable scripts are 2.12x more likely to contain vulnerabilities than instruction-only skills (OR=2.12, p<0.001). Our contributions include: (1) a grounded vulnerability taxonomy derived from 8,126 vulnerable skills, (2) a validated detection methodology achieving 86.7% precision and 82.5% recall, and (3) an open dataset and detection toolkit to support future research. These results demonstrate an urgent need for capability-based permission systems and mandatory security vetting before this attack vector is further exploited.
PDF31January 17, 2026