SkillHarm: Levenscyclusbewuste, op vaardigheden gebaseerde aanvallen via geautomatiseerde constructie

Samenvatting

Agentvaardigheden nemen een bevoorrechte positie in binnen de agentworkflow, aangezien van agenten wordt verwacht dat zij deze impliciet volgen en uitvoeren, waardoor vaardigheden van derden een kwetsbaar aanvalsoppervlak vormen. Bestaande studies hebben onveilig agentgedrag aangetoond dat wordt veroorzaakt door op vaardigheden gebaseerde aanvallen, maar zij evalueren voornamelijk vergiftigde vaardigheden binnen een enkele taakuitvoering en inventariseren schade via ad-hocrisicolijsten. Om deze lacunes te overbruggen, introduceren wij SkillHarm, een benchmark voor op vaardigheden gebaseerde aanvallen gedurende de gehele levenscyclus van vaardigheidsgebruik, gekoppeld aan een systematische taxonomie van vaardigheidsrelevante risico's. SkillHarm evalueert twee aanvalsscenario's: Fixed-Payload Poisoning (FPP), waarbij een vast vergiftigd vaardigheidspakket direct elke taaksessie compromitteert die het aanroept, en Self-Mutating Poisoning (SMP), waarbij een initieel goedaardige uitvoering stilletjes aanhoudende vaardigheidsinhoud muteert en schade uitstelt tot een volgend hergebruik. Verder definieert het 12 risicotypes op basis van het agentworkflowcomponent dat door de schade wordt getroffen: datapijplijnen, systeemomgevingen en agentautonomie. Om deze aanvallen op schaal te instantieren, bouwen wij AutoSkillHarm, een geautomatiseerde constructiepijplijn met codeeragenten die worden aangestuurd door natuurlijke-taalharnassen. De resulterende benchmark bevat 879 aanvalssamples verspreid over 71 vaardigheden. Experimenten tonen aan dat huidige agenten kwetsbaar blijven, met aanvalsuccespercentages tot 86,3% bij FPP en 69,3% bij SMP. Onze analyse onthult verder een latent risico: veel schijnbare aanvalsmislukkingen komen voort uit het feit dat de agent het vergiftigde bestand niet oppakt, in plaats van uit echte weerstand, en huidige verdedigingen slagen er nog steeds niet in om de dreiging betrouwbaar te beperken.

English

Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.