Habilidades dos Agentes em Ambiente Real: Um Estudo Empírico de Vulnerabilidades de Segurança em Larga Escala

Resumo

O surgimento de estruturas de agentes de IA introduziu as *skills* de agentes, pacotes modulares que contêm instruções e código executável para estender dinamicamente as capacidades dos agentes. Embora esta arquitetura permita uma personalização poderosa, as *skills* são executadas com confiança implícita e com verificação mínima, criando uma superfície de ataque significativa, mas ainda não caracterizada. Realizamos a primeira análise empírica de segurança em larga escala deste ecossistema emergente, recolhendo 42.447 *skills* de dois dos principais mercados e analisando sistematicamente 31.132 usando o SkillScan, uma estrutura de deteção multiestágio que integra análise estática com classificação semântica baseada em LLM. As nossas descobertas revelam riscos de segurança generalizados: 26,1% das *skills* contêm pelo menos uma vulnerabilidade, abrangendo 14 padrões distintos em quatro categorias: *prompt injection*, exfiltração de dados, escalamento de privilégios e riscos na cadeia de abastecimento. A exfiltração de dados (13,3%) e o escalamento de privilégios (11,8%) são os mais prevalecentes, enquanto 5,2% das *skills* exibem padrões de alta gravidade que sugerem fortemente intenção maliciosa. Verificamos que as *skills* que incluem scripts executáveis têm 2,12 vezes mais probabilidade de conter vulnerabilidades do que as *skills* baseadas apenas em instruções (OR=2,12, p<0,001). As nossas contribuições incluem: (1) uma taxonomia de vulnerabilidades fundamentada, derivada de 8.126 *skills* vulneráveis, (2) uma metodologia de deteção validada que atinge 86,7% de precisão e 82,5% de *recall*, e (3) um conjunto de dados aberto e um kit de ferramentas de deteção para apoiar pesquisas futuras. Estes resultados demonstram a necessidade urgente de sistemas de permissões baseados em capacidades e de verificação de segurança obrigatória antes que este vetor de ataque seja ainda mais explorado.

English

The rise of AI agent frameworks has introduced agent skills, modular packages containing instructions and executable code that dynamically extend agent capabilities. While this architecture enables powerful customization, skills execute with implicit trust and minimal vetting, creating a significant yet uncharacterized attack surface. We conduct the first large-scale empirical security analysis of this emerging ecosystem, collecting 42,447 skills from two major marketplaces and systematically analyzing 31,132 using SkillScan, a multi-stage detection framework integrating static analysis with LLM-based semantic classification. Our findings reveal pervasive security risks: 26.1% of skills contain at least one vulnerability, spanning 14 distinct patterns across four categories: prompt injection, data exfiltration, privilege escalation, and supply chain risks. Data exfiltration (13.3%) and privilege escalation (11.8%) are most prevalent, while 5.2% of skills exhibit high-severity patterns strongly suggesting malicious intent. We find that skills bundling executable scripts are 2.12x more likely to contain vulnerabilities than instruction-only skills (OR=2.12, p<0.001). Our contributions include: (1) a grounded vulnerability taxonomy derived from 8,126 vulnerable skills, (2) a validated detection methodology achieving 86.7% precision and 82.5% recall, and (3) an open dataset and detection toolkit to support future research. These results demonstrate an urgent need for capability-based permission systems and mandatory security vetting before this attack vector is further exploited.

Habilidades dos Agentes em Ambiente Real: Um Estudo Empírico de Vulnerabilidades de Segurança em Larga Escala

Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

Resumo

Support