SkillHarm: Lebenszyklus-bewusste, Skill-basierte Angriffe durch automatisierte Konstruktion

Zusammenfassung

Agentenfähigkeiten nehmen eine privilegierte Position im Agenten-Workflow ein, da von Agenten erwartet wird, dass sie diese implizit befolgen und ausführen, wodurch Drittanbieter-Fähigkeiten eine angreifbare Oberfläche darstellen. Bisherige Studien haben unsichere Agentenverhalten aufgedeckt, die durch angriffsbasierte Fähigkeiten ausgelöst werden, bewerten jedoch vergiftete Fähigkeiten hauptsächlich innerhalb einer einzelnen Aufgabenausführung und zählen Schäden durch Ad-hoc-Risikolisten auf. Um diese Lücken zu schließen, führen wir SkillHarm ein, einen Benchmark für angriffsbasierte Fähigkeiten über den gesamten Nutzungslebenszyklus hinweg, gepaart mit einer systematischen Taxonomie fähigkeitsrelevanter Risiken. SkillHarm bewertet zwei Angriffsszenarien: Fixed-Payload Poisoning (FPP), bei dem ein fest vergiftetes Fähigkeitspaket direkt jede Aufgabensitzung gefährdet, die es aufruft, und Self-Mutating Poisoning (SMP), bei dem eine anfangs harmlose Ausführung stillschweigend persistente Fähigkeitsinhalte mutiert und den Schaden bis zur erneuten Nutzung hinauszögert. Es definiert weiterhin 12 Risikotypen basierend auf der vom Schaden betroffenen Agenten-Workflow-Komponente: Datenpipelines, Systemumgebungen und Agentenautonomie. Um diese Angriffe in großem Maßstab zu instanziieren, entwickeln wir AutoSkillHarm, eine automatisierte Konstruktionspipeline mit Codierungsagenten, die von natürlichsprachigen Treibern gesteuert werden. Der resultierende Benchmark enthält 879 Angriffsbeispiele über 71 Fähigkeiten hinweg. Experimente zeigen, dass aktuelle Agenten weiterhin anfällig sind, mit Angriffserfolgsraten von bis zu 86,3 % bei FPP und 69,3 % bei SMP. Unsere Analyse offenbart zudem ein latentes Risiko: Viele scheinbare Angriffsfehlschläge resultieren daraus, dass der Agent die vergiftete Datei nicht einbezieht, anstatt aus echtem Widerstand, und aktuelle Abwehrmaßnahmen sind noch nicht in der Lage, die Bedrohung zuverlässig zu entschärfen.

English

Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.