POISE: Inyección Indetectable de Habilidades con Conciencia de Posición en Agentes LLM

Resumen

Las habilidades de agente proporcionan un mecanismo ligero para extender agentes de propósito general, pero su formato abierto las expone a ataques de envenenamiento de habilidades. Una inyección prácticamente peligrosa debe permanecer invisible: si la ejecución del payload descarrila la tarea legítima del usuario, la señal de fallo resultante invita a inspeccionar la habilidad. Por ello, evaluamos los ataques mediante la Tasa de Éxito de Ataque (Attack Success Rate, ASR), que requiere que el payload inyectado se ejecute y que la tarea del usuario pase su verificador en el mismo ensayo. Bajo este enfoque, los ataques previos de envenenamiento de habilidades enfrentan una compensación entre fiabilidad y sigilo: las inyecciones en cabeceras YAML se cargan de forma fiable pero son fácilmente inspeccionables, mientras que las inyecciones en el cuerpo más sigilosas, que colocan comandos maliciosos explícitos en la prosa de la habilidad, son menos fiables porque los comandos fuera de contexto despiertan la sospecha del propio agente. Introducimos POISE, un ataque consciente de la posición que comprime el desencadenante en una única instrucción de cuerpo de apariencia benigna, la sitúa en una posición factible y utiliza un generador consciente del contexto para mezclarla con pasos previos de configuración o requisitos cercanos. En Skill-Inject con codex+gpt-5.2, POISE alcanza un 89.3% de ASR, 28.0 puntos por encima de una línea base de cuerpo con colocación aleatoria y 2.6 puntos por encima de una línea base solo YAML, mientras conserva la ventaja de sigilo de la colocación en el cuerpo. Ese sigilo constituye el margen decisivo: debido a que los cuerpos de habilidades legítimas requieren naturalmente operaciones privilegiadas con herramientas, los escáneres de LLM son hipersensibles, marcando falsamente un 74.6% de las habilidades limpias en promedio entre cuatro jueces y ambos conjuntos de referencia. Al mimetizarse entre estas falsas alarmas, POISE provoca que solo el 5.6% de las variantes envenenadas obtengan una nueva alerta de alto riesgo sobre sus líneas base limpias, volviendo ineficaces las defensas estáticas actuales.

English

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning attacks. A practically dangerous injection must stay invisible: if executing the payload derails the user's legitimate task, the resulting failure signal invites inspection of the skill. We therefore evaluate attacks by Attack Success Rate, which requires the injected payload to execute and the user's task to still pass its verifier in the same trial. Prior skill-poisoning attacks face a reliability-stealth trade-off under this lens: YAML-header injections are reliably loaded but easily inspected, whereas stealthier body injections that place explicit malicious commands in the skill prose are less reliable because out-of-context commands invite the agent's own suspicion. We introduce POISE, a position-aware attack that compresses the trigger into a single, benign-looking body instruction, placing it at a feasible position and using a context-aware generator to blend it with nearby setup or prerequisite steps. On Skill-Inject with codex+gpt-5.2, POISE achieves an 89.3% ASR, 28.0 points above a random-placement body baseline and 2.6 points above a YAML-only baseline, while retaining the stealth advantage of body placement. That stealth is the decisive margin: because legitimate skill bodies naturally require privileged tool operations, LLM scanners are hyper-sensitive, falsely flagging 74.6% of clean skills on average across four judges and both benchmarks. Blending into these false alarms, POISE causes only 5.6% of poisoned variants to gain a new high-risk alert over their clean baselines, rendering current static defenses ineffective.