SkillHarm: Атаки, основанные на навыках и учитывающие жизненный цикл, посредством автоматизированного построения

Аннотация

Навыки агентов занимают привилегированное положение в рабочем процессе агента, поскольку ожидается, что агенты будут неявно следовать им и выполнять их, что превращает сторонние навыки в уязвимую поверхность атаки. Существующие исследования выявили опасное поведение агентов, вызванное атаками на основе навыков, однако в них в основном оцениваются отравленные навыки в рамках однократного выполнения задачи, а вред перечисляется с помощью списков рисков, составленных ad hoc. Чтобы восполнить эти пробелы, мы представляем SkillHarm — эталон атак на основе навыков на протяжении всего жизненного цикла использования навыков, дополненный систематической таксономией рисков, связанных с навыками. SkillHarm оценивает два сценария атак: отравление с фиксированной нагрузкой (FPP), при котором фиксированный отравленный пакет навыков напрямую компрометирует любой сеанс задачи, который его вызывает, и самоизменяющееся отравление (SMP), при котором изначально безвредное выполнение незаметно изменяет постоянное содержимое навыка, откладывая нанесение вреда до последующего повторного использования. Кроме того, он определяет 12 типов рисков на основе компонента рабочего процесса агента, на который направлен вред: конвейеры данных, системные среды и автономия агента. Для масштабной реализации этих атак мы создаем AutoSkillHarm — автоматизированный конвейер построения с кодирующими агентами, управляемыми обвязками на естественном языке. Полученный эталон содержит 879 образцов атак по 71 навыку. Эксперименты показывают, что современные агенты остаются уязвимыми: показатели успешности атак достигают 86,3% для FPP и 69,3% для SMP. Наш анализ также выявляет скрытый риск: многие кажущиеся неудачи атак обусловлены тем, что агент не взаимодействует с отравленным файлом, а не подлинным сопротивлением, а современные средства защиты все еще неспособны надежно устранить эту угрозу.

English

Agent skills occupy a privileged position in the agent workflow, as agents are expected to implicitly follow and execute them, rendering third-party skills a vulnerable attack surface. Existing studies have revealed unsafe agent behaviors induced by skill-based attacks, but they primarily evaluate poisoned skills within a single task execution and enumerate harms through ad-hoc risk lists. To bridge these gaps, we introduce SkillHarm, a benchmark of skill-based attacks across the skill-use lifecycle, paired with a systematic taxonomy of skill-relevant risks. SkillHarm evaluates two attack scenarios: Fixed-Payload Poisoning (FPP), where a fixed poisoned skill package directly compromises any task session that invokes it, and Self-Mutating Poisoning (SMP), where an initially benign execution silently mutates persistent skill content, deferring harm until a subsequent reuse. It further defines 12 risk types based on the agent workflow component targeted by the harm: data pipelines, system environments, and agent autonomy. To instantiate these attacks at scale, we build AutoSkillHarm, an automated construction pipeline with coding agents driven by natural-language harnesses. The resulting benchmark contains 879 attack samples across 71 skills. Experiments show that current agents remain vulnerable with attack success rates up to 86.3% in FPP and 69.3% in SMP. Our analysis further reveals a latent risk: many apparent attack failures stem from the agent failing to engage with the poisoned file rather than genuine resistance, and current defenses still fail to reliably mitigate the threat.