SkillHarm : Attaques basées sur les compétences et conscientes du cycle de vie via une construction automatisée

Résumé

Les compétences des agents occupent une position privilégiée dans le flux de travail des agents, car ceux-ci sont censés les suivre et les exécuter implicitement, ce qui fait des compétences tierces une surface d'attaque vulnérable. Des études existantes ont révélé des comportements dangereux des agents induits par des attaques ciblant les compétences, mais elles évaluent principalement des compétences empoisonnées au sein d'une seule exécution de tâche et énumèrent les préjudices à l'aide de listes de risques ad hoc. Pour combler ces lacunes, nous introduisons SkillHarm, un banc d'essai d'attaques basées sur les compétences tout au long du cycle de vie de leur utilisation, associé à une taxonomie systématique des risques liés aux compétences. SkillHarm évalue deux scénarios d'attaque : l'empoisonnement à charge utile fixe (FPP), où un package de compétences empoisonné fixe compromet directement toute session de tâche qui l'invoque, et l'empoisonnement auto-mutant (SMP), où une exécution initialement bénigne mute silencieusement le contenu persistant de la compétence, différant le préjudice jusqu'à une réutilisation ultérieure. Il définit en outre 12 types de risques en fonction de la composante du flux de travail de l'agent ciblée par le préjudice : les pipelines de données, les environnements système et l'autonomie de l'agent. Pour instancier ces attaques à grande échelle, nous construisons AutoSkillHarm, un pipeline de construction automatisé avec des agents de codage pilotés par des harnais en langage naturel. Le banc d'essai résultant contient 879 échantillons d'attaque couvrant 71 compétences. Les expériences montrent que les agents actuels restent vulnérables avec des taux de succès d'attaque allant jusqu'à 86,3 % dans le cadre du FPP et 69,3 % dans celui du SMP. Notre analyse révèle en outre un risque latent : de nombreux échecs apparents d'attaque proviennent du fait que l'agent ne parvient pas à interagir avec le fichier empoisonné plutôt que d'une résistance réelle, et les défenses actuelles échouent encore à atténuer de manière fiable cette menace.

English

Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.