Defensa de Desescalación de Instrucciones Suaves
Soft Instruction De-escalation Defense
October 24, 2025
Autores: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) se despliegan cada vez más en sistemas agentes que interactúan con un entorno externo; esto los hace susceptibles a inyecciones de *prompts* al manejar datos no confiables. Para superar esta limitación, proponemos SIC (Soft Instruction Control), un bucle simple pero efectivo de saneamiento iterativo de *prompts* diseñado para agentes LLM aumentados con herramientas. Nuestro método inspecciona repetidamente los datos entrantes en busca de instrucciones que puedan comprometer el comportamiento del agente. Si se encuentra dicho contenido, el contenido malicioso se reescribe, enmascara o elimina, y el resultado se reevalúa. El proceso continúa hasta que la entrada está limpia o se alcanza un límite máximo de iteraciones; si permanece contenido imperativo similar a una instrucción, el agente se detiene para garantizar la seguridad. Al permitir múltiples pasadas, nuestro enfoque reconoce que las reescrituras individuales pueden fallar, pero permite que el sistema detecte y corrija inyecciones omitidas en pasos posteriores. Aunque es útil de inmediato, el análisis del peor caso muestra que SIC no es infalible; un adversario fuerte aún puede lograr una Tasa de Éxito de Ataque (ASR) del 15% incrustando flujos de trabajo no imperativos. No obstante, esto eleva la barrera de seguridad.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment; this makes them susceptible to
prompt injections when dealing with untrusted data. To overcome this
limitation, we propose SIC (Soft Instruction Control)-a simple yet effective
iterative prompt sanitization loop designed for tool-augmented LLM agents. Our
method repeatedly inspects incoming data for instructions that could compromise
agent behavior. If such content is found, the malicious content is rewritten,
masked, or removed, and the result is re-evaluated. The process continues until
the input is clean or a maximum iteration limit is reached; if imperative
instruction-like content remains, the agent halts to ensure security. By
allowing multiple passes, our approach acknowledges that individual rewrites
may fail but enables the system to catch and correct missed injections in later
steps. Although immediately useful, worst-case analysis shows that SIC is not
infallible; strong adversary can still get a 15% ASR by embedding
non-imperative workflows. This nonetheless raises the bar.