SkillHarm: Ataques basados en habilidades conscientes del ciclo de vida mediante construcción automatizada

Resumen

Las habilidades de los agentes ocupan una posición privilegiada en el flujo de trabajo de los agentes, ya que se espera que estos las sigan y ejecuten implícitamente, lo que convierte a las habilidades de terceros en una superficie de ataque vulnerable. Estudios existentes han revelado comportamientos inseguros de los agentes inducidos por ataques basados en habilidades, pero principalmente evalúan habilidades envenenadas dentro de una única ejecución de tarea y enumeran daños mediante listas de riesgo ad hoc. Para superar estas limitaciones, presentamos SkillHarm, un benchmark de ataques basados en habilidades a lo largo del ciclo de vida del uso de habilidades, acompañado de una taxonomía sistemática de riesgos relevantes para las habilidades. SkillHarm evalúa dos escenarios de ataque: Envenenamiento de Carga Fija (FPP), donde un paquete de habilidades envenenado fijo compromete directamente cualquier sesión de tarea que lo invoque, y Envenenamiento Automutante (SMP), donde una ejecución inicialmente benigna muta silenciosamente el contenido persistente de la habilidad, difiriendo el daño hasta una reutilización posterior. Además, define 12 tipos de riesgo basados en el componente del flujo de trabajo del agente al que se dirige el daño: tuberías de datos, entornos del sistema y autonomía del agente. Para instanciar estos ataques a escala, construimos AutoSkillHarm, un pipeline de construcción automatizado con agentes de codificación impulsados por arneses en lenguaje natural. El benchmark resultante contiene 879 muestras de ataque en 71 habilidades. Los experimentos muestran que los agentes actuales siguen siendo vulnerables, con tasas de éxito de ataque de hasta el 86.3% en FPP y el 69.3% en SMP. Nuestro análisis revela además un riesgo latente: muchos aparentes fallos de ataque se deben a que el agente no interactúa con el archivo envenenado, en lugar de una resistencia genuina, y las defensas actuales aún no logran mitigar la amenaza de manera confiable.

English

Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.