POISE: Positionsbewusste, nicht erkennbare Fähigkeitsinjektion bei LLM-Agenten

Zusammenfassung

Agent-Fähigkeiten bieten einen leichten Mechanismus zur Erweiterung allgemeiner Agenten, aber ihr offenes Format macht sie anfällig für Skill-Poisoning-Angriffe. Ein praktisch gefährlicher Einschleusungsversuch muss unsichtbar bleiben: Wenn die Ausführung der Nutzlast die legitime Aufgabe des Nutzers zum Scheitern bringt, lädt das resultierende Fehlersignal zur Überprüfung des Skills ein. Wir bewerten Angriffe daher anhand der Angriffserfolgsrate, die erfordert, dass die eingeschleuste Nutzlast ausgeführt wird und die Benutzeraufgabe im selben Durchlauf dennoch ihren Verifizierer besteht. Bisherige Skill-Poisoning-Angriffe stehen unter dieser Betrachtungsweise vor einem Zielkonflikt zwischen Zuverlässigkeit und Tarnung: YAML-Header-Injektionen werden zuverlässig geladen, sind aber leicht zu inspizieren, während getarntere Body-Injektionen, die explizite bösartige Befehle im Skill-Text platzieren, weniger zuverlässig sind, da aus dem Kontext gerissene Befehle die Skepsis des Agenten wecken. Wir stellen POISE vor, einen positionsbewussten Angriff, der den Auslöser zu einer einzigen, harmlos erscheinenden Body-Anweisung komprimiert, diese an einer geeigneten Position platziert und einen kontextbewussten Generator nutzt, um sie mit nahegelegenen Setup- oder Voraussetzungsschritten zu verschmelzen. Auf Skill-Inject mit codex+gpt-5.2 erreicht POISE eine ASR von 89,3 %, 28,0 Prozentpunkte über einer zufällig platzierten Body-Baseline und 2,6 Prozentpunkte über einer reinen YAML-Baseline, während der Tarnungsvorteil der Body-Platzierung erhalten bleibt. Diese Tarnung ist der entscheidende Vorteil: Da legitime Skill-Bodies natürlicherweise privilegierte Tool-Operationen erfordern, sind LLM-Scanner überempfindlich und kennzeichnen im Durchschnitt über vier Bewerter und beide Benchmarks hinweg fälschlicherweise 74,6 % der sauberen Skills als verdächtig. POISE fügt sich in diese Fehlalarme ein und führt nur bei 5,6 % der vergifteten Varianten zu einer neuen Hochrisikowarnung gegenüber ihrer sauberen Baseline, was aktuelle statische Abwehrmaßnahmen unwirksam macht.

English

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning attacks. A practically dangerous injection must stay invisible: if executing the payload derails the user's legitimate task, the resulting failure signal invites inspection of the skill. We therefore evaluate attacks by Attack Success Rate, which requires the injected payload to execute and the user's task to still pass its verifier in the same trial. Prior skill-poisoning attacks face a reliability-stealth trade-off under this lens: YAML-header injections are reliably loaded but easily inspected, whereas stealthier body injections that place explicit malicious commands in the skill prose are less reliable because out-of-context commands invite the agent's own suspicion. We introduce POISE, a position-aware attack that compresses the trigger into a single, benign-looking body instruction, placing it at a feasible position and using a context-aware generator to blend it with nearby setup or prerequisite steps. On Skill-Inject with codex+gpt-5.2, POISE achieves an 89.3% ASR, 28.0 points above a random-placement body baseline and 2.6 points above a YAML-only baseline, while retaining the stealth advantage of body placement. That stealth is the decisive margin: because legitimate skill bodies naturally require privileged tool operations, LLM scanners are hyper-sensitive, falsely flagging 74.6% of clean skills on average across four judges and both benchmarks. Blending into these false alarms, POISE causes only 5.6% of poisoned variants to gain a new high-risk alert over their clean baselines, rendering current static defenses ineffective.