SkillHarm: Ataques Baseados em Habilidades Cientes do Ciclo de Vida via Construção Automatizada

Resumo

As habilidades de agente ocupam uma posição privilegiada no fluxo de trabalho do agente, pois espera-se que os agentes as sigam e executem implicitamente, tornando as habilidades de terceiros uma superfície de ataque vulnerável. Estudos existentes revelaram comportamentos inseguros de agentes induzidos por ataques baseados em habilidades, mas eles avaliam principalmente habilidades envenenadas dentro de uma única execução de tarefa e enumeram danos por meio de listas de risco ad hoc. Para preencher essas lacunas, apresentamos o SkillHarm, um benchmark de ataques baseados em habilidades ao longo do ciclo de vida do uso de habilidades, combinado com uma taxonomia sistemática de riscos relevantes para habilidades. O SkillHarm avalia dois cenários de ataque: Envenenamento por Carga Fixa (FPP), onde um pacote de habilidade envenenado fixo compromete diretamente qualquer sessão de tarefa que o invoca, e Envenenamento por Automutação (SMP), onde uma execução inicialmente benigna altera silenciosamente o conteúdo persistente da habilidade, adiando o dano até uma reutilização subsequente. Ele define ainda 12 tipos de risco com base no componente do fluxo de trabalho do agente alvo do dano: pipelines de dados, ambientes de sistema e autonomia do agente. Para instanciar esses ataques em escala, construímos o AutoSkillHarm, um pipeline de construção automatizada com agentes de codificação orientados por estruturas de linguagem natural. O benchmark resultante contém 879 amostras de ataque em 71 habilidades. Experimentos mostram que os agentes atuais permanecem vulneráveis, com taxas de sucesso de ataque de até 86,3% no FPP e 69,3% no SMP. Nossa análise revela ainda um risco latente: muitas aparentes falhas de ataque decorrem da falha do agente em interagir com o arquivo envenenado, em vez de resistência genuína, e as defesas atuais ainda não conseguem mitigar a ameaça de forma confiável.

English

Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.