Zachte Instructie-Deëscalatie Verdediging
Soft Instruction De-escalation Defense
October 24, 2025
Auteurs: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) worden steeds vaker ingezet in agent-systemen die interacteren met een externe omgeving; dit maakt ze kwetsbaar voor prompt-injecties bij de verwerking van niet-vertrouwde data. Om deze beperking te overwinnen, stellen we SIC (Soft Instruction Control) voor – een eenvoudige maar effectieve iteratieve lus voor het saneren van prompts, ontworpen voor tool-augmented LLM-agenten. Onze methode inspecteert inkomende data herhaaldelijk op instructies die het agentgedrag kunnen compromitteren. Indien dergelijke inhoud wordt gevonden, wordt de kwaadaardige inhoud herschreven, gemaskeerd of verwijderd, en wordt het resultaat opnieuw geëvalueerd. Het proces gaat door totdat de invoer schoon is of een maximum aantal iteraties is bereikt; als imperatief, instructie-achtige inhoud resteert, stopt de agent om de veiligheid te waarborgen. Door meerdere passes toe te staan, erkent onze aanpak dat individuele herschrijfpogingen kunnen falen, maar stelt het systeem in staat gemiste injecties in latere stappen alsnog te detecteren en te corrigeren. Hoewel onmiddellijk bruikbaar, toont een worst-case-analyse aan dat SIC niet onfeilbaar is; een sterke tegenstander kan nog steeds een 15% ASR bereiken door niet-imperatieve werkstromen in te bedden. Desalniettemin verhoogt dit de drempel aanzienlijk.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment; this makes them susceptible to
prompt injections when dealing with untrusted data. To overcome this
limitation, we propose SIC (Soft Instruction Control)-a simple yet effective
iterative prompt sanitization loop designed for tool-augmented LLM agents. Our
method repeatedly inspects incoming data for instructions that could compromise
agent behavior. If such content is found, the malicious content is rewritten,
masked, or removed, and the result is re-evaluated. The process continues until
the input is clean or a maximum iteration limit is reached; if imperative
instruction-like content remains, the agent halts to ensure security. By
allowing multiple passes, our approach acknowledges that individual rewrites
may fail but enables the system to catch and correct missed injections in later
steps. Although immediately useful, worst-case analysis shows that SIC is not
infallible; strong adversary can still get a 15% ASR by embedding
non-imperative workflows. This nonetheless raises the bar.