Zachte Instructie-Deëscalatie Verdediging

Samenvatting

Grote Taalmodellen (LLM's) worden steeds vaker ingezet in agent-systemen die interacteren met een externe omgeving; dit maakt ze kwetsbaar voor prompt-injecties bij de verwerking van niet-vertrouwde data. Om deze beperking te overwinnen, stellen we SIC (Soft Instruction Control) voor – een eenvoudige maar effectieve iteratieve lus voor het saneren van prompts, ontworpen voor tool-augmented LLM-agenten. Onze methode inspecteert inkomende data herhaaldelijk op instructies die het agentgedrag kunnen compromitteren. Indien dergelijke inhoud wordt gevonden, wordt de kwaadaardige inhoud herschreven, gemaskeerd of verwijderd, en wordt het resultaat opnieuw geëvalueerd. Het proces gaat door totdat de invoer schoon is of een maximum aantal iteraties is bereikt; als imperatief, instructie-achtige inhoud resteert, stopt de agent om de veiligheid te waarborgen. Door meerdere passes toe te staan, erkent onze aanpak dat individuele herschrijfpogingen kunnen falen, maar stelt het systeem in staat gemiste injecties in latere stappen alsnog te detecteren en te corrigeren. Hoewel onmiddellijk bruikbaar, toont een worst-case-analyse aan dat SIC niet onfeilbaar is; een sterke tegenstander kan nog steeds een 15% ASR bereiken door niet-imperatieve werkstromen in te bedden. Desalniettemin verhoogt dit de drempel aanzienlijk.

English

Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment; this makes them susceptible to prompt injections when dealing with untrusted data. To overcome this limitation, we propose SIC (Soft Instruction Control)-a simple yet effective iterative prompt sanitization loop designed for tool-augmented LLM agents. Our method repeatedly inspects incoming data for instructions that could compromise agent behavior. If such content is found, the malicious content is rewritten, masked, or removed, and the result is re-evaluated. The process continues until the input is clean or a maximum iteration limit is reached; if imperative instruction-like content remains, the agent halts to ensure security. By allowing multiple passes, our approach acknowledges that individual rewrites may fail but enables the system to catch and correct missed injections in later steps. Although immediately useful, worst-case analysis shows that SIC is not infallible; strong adversary can still get a 15% ASR by embedding non-imperative workflows. This nonetheless raises the bar.

Zachte Instructie-Deëscalatie Verdediging

Soft Instruction De-escalation Defense

Samenvatting

Support