POISE : Injection de compétences indétectable et consciente de la position sur les agents LLM

Résumé

Les compétences d'agent offrent un mécanisme léger pour étendre les agents généralistes, mais leur format ouvert les expose à des attaques par empoisonnement de compétences. Une injection pratiquement dangereuse doit rester invisible : si l'exécution de la charge utile fait dérailler la tâche légitime de l'utilisateur, le signal d'échec qui en résulte invite à inspecter la compétence. Nous évaluons donc les attaques selon le taux de succès d'attaque (Attack Success Rate, ASR), qui exige que la charge utile injectée soit exécutée et que la tâche de l'utilisateur réussisse son vérificateur lors du même essai. Les attaques par empoisonnement de compétences antérieures sont confrontées à un compromis fiabilité-discrétion sous cet angle : les injections dans l'en-tête YAML sont chargées de manière fiable mais facilement inspectables, tandis que les injections dans le corps, plus discrètes, qui placent des commandes malveillantes explicites dans le texte de la compétence, sont moins fiables car les commandes hors contexte éveillent les soupçons de l'agent. Nous introduisons POISE, une attaque sensible à la position qui compresse le déclencheur en une seule instruction corporelle d'apparence bénigne, la plaçant à une position réalisable et utilisant un générateur contextuel pour la fondre avec les étapes de configuration ou prérequises voisines. Sur Skill-Inject avec codex+gpt-5.2, POISE atteint un ASR de 89,3 %, soit 28,0 points de plus qu'une base de référence avec placement aléatoire dans le corps et 2,6 points de plus qu'une base de référence avec uniquement YAML, tout en conservant l'avantage de discrétion du placement dans le corps. Cette discrétion constitue la marge décisive : comme les corps de compétences légitimes nécessitent naturellement des opérations privilégiées sur les outils, les analyseurs LLM sont hypersensibles, signalant à tort 74,6 % des compétences propres en moyenne sur quatre juges et deux référentiels. En se fondant dans ces fausses alertes, POISE ne fait apparaître qu'un nouveau signal de haut risque pour 5,6 % des variantes empoisonnées par rapport à leurs bases propres, rendant inefficaces les défenses statiques actuelles.

English

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning attacks. A practically dangerous injection must stay invisible: if executing the payload derails the user's legitimate task, the resulting failure signal invites inspection of the skill. We therefore evaluate attacks by Attack Success Rate, which requires the injected payload to execute and the user's task to still pass its verifier in the same trial. Prior skill-poisoning attacks face a reliability-stealth trade-off under this lens: YAML-header injections are reliably loaded but easily inspected, whereas stealthier body injections that place explicit malicious commands in the skill prose are less reliable because out-of-context commands invite the agent's own suspicion. We introduce POISE, a position-aware attack that compresses the trigger into a single, benign-looking body instruction, placing it at a feasible position and using a context-aware generator to blend it with nearby setup or prerequisite steps. On Skill-Inject with codex+gpt-5.2, POISE achieves an 89.3% ASR, 28.0 points above a random-placement body baseline and 2.6 points above a YAML-only baseline, while retaining the stealth advantage of body placement. That stealth is the decisive margin: because legitimate skill bodies naturally require privileged tool operations, LLM scanners are hyper-sensitive, falsely flagging 74.6% of clean skills on average across four judges and both benchmarks. Blending into these false alarms, POISE causes only 5.6% of poisoned variants to gain a new high-risk alert over their clean baselines, rendering current static defenses ineffective.