POISE: Injeção Indetectável de Habilidades Ciente da Posição em Agentes de LLM

Resumo

Habilidades de agentes fornecem um mecanismo leve para estender agentes de propósito geral, mas seu formato aberto as expõe a ataques de envenenamento de habilidades. Uma injeção praticamente perigosa deve permanecer invisível: se a execução da carga maliciosa desviar a tarefa legítima do usuário, o sinal de falha resultante convida à inspeção da habilidade. Portanto, avaliamos ataques pela Taxa de Sucesso de Ataque (ASR), que exige que a carga maliciosa injetada seja executada e que a tarefa do usuário ainda passe em seu verificador na mesma tentativa. Ataques anteriores de envenenamento de habilidades enfrentam um trade-off entre confiabilidade e furtividade sob essa ótica: injeções no cabeçalho YAML são carregadas de forma confiável, mas facilmente inspecionadas, enquanto injeções no corpo mais furtivas, que colocam comandos maliciosos explícitos na prosa da habilidade, são menos confiáveis porque comandos fora de contexto despertam a suspeita do próprio agente. Apresentamos o POISE, um ataque sensível à posição que comprime o gatilho em uma única instrução de corpo de aparência benigna, colocando-a em uma posição viável e usando um gerador sensível ao contexto para mesclá-la com etapas de configuração ou pré-requisitos próximas. No Skill-Inject com codex+gpt-5.2, o POISE atinge 89,3% de ASR, 28,0 pontos acima de uma linha de base de corpo com posicionamento aleatório e 2,6 pontos acima de uma linha de base apenas YAML, mantendo a vantagem de furtividade do posicionamento no corpo. Essa furtividade é a margem decisiva: como corpos legítimos de habilidades exigem naturalmente operações privilegiadas de ferramentas, os scanners de LLM são hipersensíveis, sinalizando falsamente 74,6% das habilidades limpas em média, considerando quatro avaliadores e ambos os benchmarks. Misturando-se a esses falsos alarmes, o POISE faz com que apenas 5,6% das variantes envenenadas obtenham um novo alerta de alto risco em relação às suas linhas de base limpas, tornando as defesas estáticas atuais ineficazes.

English

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning attacks. A practically dangerous injection must stay invisible: if executing the payload derails the user's legitimate task, the resulting failure signal invites inspection of the skill. We therefore evaluate attacks by Attack Success Rate, which requires the injected payload to execute and the user's task to still pass its verifier in the same trial. Prior skill-poisoning attacks face a reliability-stealth trade-off under this lens: YAML-header injections are reliably loaded but easily inspected, whereas stealthier body injections that place explicit malicious commands in the skill prose are less reliable because out-of-context commands invite the agent's own suspicion. We introduce POISE, a position-aware attack that compresses the trigger into a single, benign-looking body instruction, placing it at a feasible position and using a context-aware generator to blend it with nearby setup or prerequisite steps. On Skill-Inject with codex+gpt-5.2, POISE achieves an 89.3% ASR, 28.0 points above a random-placement body baseline and 2.6 points above a YAML-only baseline, while retaining the stealth advantage of body placement. That stealth is the decisive margin: because legitimate skill bodies naturally require privileged tool operations, LLM scanners are hyper-sensitive, falsely flagging 74.6% of clean skills on average across four judges and both benchmarks. Blending into these false alarms, POISE causes only 5.6% of poisoned variants to gain a new high-risk alert over their clean baselines, rendering current static defenses ineffective.