ChatPaper.aiChatPaper

Defensa de Desescalación de Instrucciones Suaves

Soft Instruction De-escalation Defense

October 24, 2025
Autores: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) se despliegan cada vez más en sistemas agentes que interactúan con un entorno externo; esto los hace susceptibles a inyecciones de *prompts* al manejar datos no confiables. Para superar esta limitación, proponemos SIC (Soft Instruction Control), un bucle simple pero efectivo de saneamiento iterativo de *prompts* diseñado para agentes LLM aumentados con herramientas. Nuestro método inspecciona repetidamente los datos entrantes en busca de instrucciones que puedan comprometer el comportamiento del agente. Si se encuentra dicho contenido, el contenido malicioso se reescribe, enmascara o elimina, y el resultado se reevalúa. El proceso continúa hasta que la entrada está limpia o se alcanza un límite máximo de iteraciones; si permanece contenido imperativo similar a una instrucción, el agente se detiene para garantizar la seguridad. Al permitir múltiples pasadas, nuestro enfoque reconoce que las reescrituras individuales pueden fallar, pero permite que el sistema detecte y corrija inyecciones omitidas en pasos posteriores. Aunque es útil de inmediato, el análisis del peor caso muestra que SIC no es infalible; un adversario fuerte aún puede lograr una Tasa de Éxito de Ataque (ASR) del 15% incrustando flujos de trabajo no imperativos. No obstante, esto eleva la barrera de seguridad.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment; this makes them susceptible to prompt injections when dealing with untrusted data. To overcome this limitation, we propose SIC (Soft Instruction Control)-a simple yet effective iterative prompt sanitization loop designed for tool-augmented LLM agents. Our method repeatedly inspects incoming data for instructions that could compromise agent behavior. If such content is found, the malicious content is rewritten, masked, or removed, and the result is re-evaluated. The process continues until the input is clean or a maximum iteration limit is reached; if imperative instruction-like content remains, the agent halts to ensure security. By allowing multiple passes, our approach acknowledges that individual rewrites may fail but enables the system to catch and correct missed injections in later steps. Although immediately useful, worst-case analysis shows that SIC is not infallible; strong adversary can still get a 15% ASR by embedding non-imperative workflows. This nonetheless raises the bar.
PDF41December 17, 2025