POISE: Позиционно-осведомленное необнаружимое внедрение навыков в LLM-агенты

Аннотация

Навыки агентов предоставляют легковесный механизм для расширения универсальных агентов, но их открытый формат делает их уязвимыми для атак отравления навыков. Практически опасная инъекция должна оставаться незаметной: если выполнение полезной нагрузки нарушает легитимную задачу пользователя, возникающий сигнал сбоя побуждает к проверке навыка. Поэтому мы оцениваем атаки по коэффициенту успешности атак (Attack Success Rate, ASR), который требует, чтобы внедренная полезная нагрузка выполнилась, а задача пользователя всё ещё прошла проверку в том же испытании. Ранее известные атаки отравления навыков сталкиваются с компромиссом между надёжностью и скрытностью: инъекции в заголовки YAML надёжно загружаются, но легко проверяются, тогда как более скрытные инъекции в тело, размещающие явные вредоносные команды в тексте навыка, менее надёжны, поскольку команды вне контекста вызывают подозрения у самого агента. Мы представляем POISE — атаку, учитывающую позицию, которая сжимает триггер в одну внешне безобидную инструкцию в теле, размещая её на подходящей позиции и используя контекстно-зависимый генератор для слияния с соседними шагами настройки или предварительными условиями. На наборе Skill-Inject с моделью codex+gpt-5.2 POISE достигает ASR в 89,3%, что на 28,0 пункта выше базового уровня случайного размещения в теле и на 2,6 пункта выше базового уровня с использованием только YAML, сохраняя при этом преимущество скрытности размещения в теле. Эта скрытность является решающим преимуществом: поскольку легитимные тела навыков естественным образом требуют привилегированных операций с инструментами, сканеры LLM чрезвычайно чувствительны, давая ложные срабатывания в среднем на 74,6% чистых навыков по четырём оценщикам и обоим наборам данных. Сливаясь с этими ложными тревогами, POISE приводит к тому, что только 5,6% отравленных вариантов получают новое предупреждение высокого риска по сравнению с их чистыми базовыми версиями, что делает текущие статические защиты неэффективными.

English

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning attacks. A practically dangerous injection must stay invisible: if executing the payload derails the user's legitimate task, the resulting failure signal invites inspection of the skill. We therefore evaluate attacks by Attack Success Rate, which requires the injected payload to execute and the user's task to still pass its verifier in the same trial. Prior skill-poisoning attacks face a reliability-stealth trade-off under this lens: YAML-header injections are reliably loaded but easily inspected, whereas stealthier body injections that place explicit malicious commands in the skill prose are less reliable because out-of-context commands invite the agent's own suspicion. We introduce POISE, a position-aware attack that compresses the trigger into a single, benign-looking body instruction, placing it at a feasible position and using a context-aware generator to blend it with nearby setup or prerequisite steps. On Skill-Inject with codex+gpt-5.2, POISE achieves an 89.3% ASR, 28.0 points above a random-placement body baseline and 2.6 points above a YAML-only baseline, while retaining the stealth advantage of body placement. That stealth is the decisive margin: because legitimate skill bodies naturally require privileged tool operations, LLM scanners are hyper-sensitive, falsely flagging 74.6% of clean skills on average across four judges and both benchmarks. Blending into these false alarms, POISE causes only 5.6% of poisoned variants to gain a new high-risk alert over their clean baselines, rendering current static defenses ineffective.