POISE: Positiebewuste Ondetecteerbare Vaardigheidsinjectie op LLM-agenten

Samenvatting

Agentvaardigheden bieden een lichtgewicht mechanisme voor het uitbreiden van algemene agenten, maar hun open formaat stelt hen bloot aan vaardigheidsvergiftigingsaanvallen. Een praktisch gevaarlijke injectie moet onzichtbaar blijven: als het uitvoeren van de payload de legitieme taak van de gebruiker ontspoort, nodigt het resulterende faalsignaal uit tot inspectie van de vaardigheid. Daarom evalueren we aanvallen op basis van het Aanvalsuccespercentage (ASR), dat vereist dat de geïnjecteerde payload wordt uitgevoerd en dat de taak van de gebruiker nog steeds door de verificateur komt in dezelfde proef. Eerdere vaardigheidsvergiftigingsaanvallen staan onder deze lens voor een afweging tussen betrouwbaarheid en onzichtbaarheid: YAML-koptekstinjecties worden betrouwbaar geladen maar zijn gemakkelijk te inspecteren, terwijl onopvallendere body-injecties die expliciete kwaadaardige commando's in de vaardigheidstekst plaatsen minder betrouwbaar zijn omdat uit-context-commando's het eigen wantrouwen van de agent oproepen. We introduceren POISE, een positiebewuste aanval die de trigger comprimeert tot een enkele, onschuldig ogende body-instructie, deze op een haalbare positie plaatst en een contextbewuste generator gebruikt om het te laten samenvallen met nabijgelegen opzet- of vereiste stappen. Op Skill-Inject met codex+gpt-5.2 behaalt POISE een ASR van 89,3%, 28,0 punten boven een body-baseline met willekeurige plaatsing en 2,6 punten boven een YAML-only baseline, terwijl het het voordeel van onzichtbaarheid van body-plaatsing behoudt. Die onzichtbaarheid is de beslissende marge: omdat legitieme vaardigheidsbodies van nature geprivilegieerde tooloperaties vereisen, zijn LLM-scanners hypergevoelig en markeren ze gemiddeld 74,6% van de schone vaardigheden ten onrechte als verdacht, over vier beoordelaars en beide benchmarks. Door zich te mengen in deze valse alarmen, zorgt POISE ervoor dat slechts 5,6% van de vergiftigde varianten een nieuw hoogrisico-alarm krijgt boven hun schone baselines, waardoor huidige statische verdedigingsmechanismen ineffectief worden.

English

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning attacks. A practically dangerous injection must stay invisible: if executing the payload derails the user's legitimate task, the resulting failure signal invites inspection of the skill. We therefore evaluate attacks by Attack Success Rate, which requires the injected payload to execute and the user's task to still pass its verifier in the same trial. Prior skill-poisoning attacks face a reliability-stealth trade-off under this lens: YAML-header injections are reliably loaded but easily inspected, whereas stealthier body injections that place explicit malicious commands in the skill prose are less reliable because out-of-context commands invite the agent's own suspicion. We introduce POISE, a position-aware attack that compresses the trigger into a single, benign-looking body instruction, placing it at a feasible position and using a context-aware generator to blend it with nearby setup or prerequisite steps. On Skill-Inject with codex+gpt-5.2, POISE achieves an 89.3% ASR, 28.0 points above a random-placement body baseline and 2.6 points above a YAML-only baseline, while retaining the stealth advantage of body placement. That stealth is the decisive margin: because legitimate skill bodies naturally require privileged tool operations, LLM scanners are hyper-sensitive, falsely flagging 74.6% of clean skills on average across four judges and both benchmarks. Blending into these false alarms, POISE causes only 5.6% of poisoned variants to gain a new high-risk alert over their clean baselines, rendering current static defenses ineffective.