Difesa tramite De-escalation delle Istruzioni Soft
Soft Instruction De-escalation Defense
October 24, 2025
Autori: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in sistemi agenti che interagiscono con un ambiente esterno; ciò li rende suscettibili ad attacchi di prompt injection quando elaborano dati non attendibili. Per superare questa limitazione, proponiamo SIC (Soft Instruction Control) – un ciclo iterativo di sanitizzazione dei prompt, semplice ma efficace, progettato per agenti LLM potenziati da strumenti. Il nostro metodo ispeziona ripetutamente i dati in ingresso alla ricerca di istruzioni che potrebbero compromettere il comportamento dell'agente. Se viene individuato tale contenuto, il contenuto malevolo viene riscritto, mascherato o rimosso, e il risultato viene rivalutato. Il processo continua finché l'input non è pulito o viene raggiunto un limite massimo di iterazioni; se rimane contenuto imperativo simile a un'istruzione, l'agente si interrompe per garantire la sicurezza. Consentendo passaggi multipli, il nostro approccio riconosce che singole riscritture possono fallire, ma permette al sistema di individuare e correggere injection mancate nei passaggi successivi. Sebbene immediatamente utile, un'analisi del caso peggiore mostra che SIC non è infallibile; un avversario forte può comunque ottenere un tasso di successo d'attacco (ASR) del 15% incorporando flussi di lavoro non imperativi. Ciò nondimeno, innalza l'asticella della sicurezza.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment; this makes them susceptible to
prompt injections when dealing with untrusted data. To overcome this
limitation, we propose SIC (Soft Instruction Control)-a simple yet effective
iterative prompt sanitization loop designed for tool-augmented LLM agents. Our
method repeatedly inspects incoming data for instructions that could compromise
agent behavior. If such content is found, the malicious content is rewritten,
masked, or removed, and the result is re-evaluated. The process continues until
the input is clean or a maximum iteration limit is reached; if imperative
instruction-like content remains, the agent halts to ensure security. By
allowing multiple passes, our approach acknowledges that individual rewrites
may fail but enables the system to catch and correct missed injections in later
steps. Although immediately useful, worst-case analysis shows that SIC is not
infallible; strong adversary can still get a 15% ASR by embedding
non-imperative workflows. This nonetheless raises the bar.