ChatPaper.aiChatPaper

Défense par désescalade douce des instructions

Soft Instruction De-escalation Defense

October 24, 2025
papers.authors: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes agentiels interagissant avec un environnement externe, ce qui les rend vulnérables aux injections de prompt lors du traitement de données non fiables. Pour surmonter cette limitation, nous proposons SIC (Soft Instruction Control) – une boucle de sanitisation itérative des prompts, simple mais efficace, conçue pour les agents LLM augmentés d'outils. Notre méthode inspecte de manière répétée les données entrantes à la recherche d'instructions susceptibles de compromettre le comportement de l'agent. Si un tel contenu est détecté, le contenu malveillant est réécrit, masqué ou supprimé, et le résultat est réévalué. Le processus se poursuit jusqu'à ce que l'entrée soit nettoyée ou qu'une limite d'itération maximale soit atteinte ; si un contenu impératif de type instruction persiste, l'agent s'arrête pour garantir la sécurité. En autorisant plusieurs passages, notre approche reconnaît que les réécritures individuelles peuvent échouer, mais permet au système de détecter et de corriger les injections manquées lors des étapes ultérieures. Bien qu'immédiatement utile, une analyse dans le pire des cas montre que SIC n'est pas infaillible ; un adversaire puissant peut encore atteindre un taux de succès d'attaque (ASR) de 15 % en intégrant des workflows non impératifs. Cela relève néanmoins le niveau de sécurité requis.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment; this makes them susceptible to prompt injections when dealing with untrusted data. To overcome this limitation, we propose SIC (Soft Instruction Control)-a simple yet effective iterative prompt sanitization loop designed for tool-augmented LLM agents. Our method repeatedly inspects incoming data for instructions that could compromise agent behavior. If such content is found, the malicious content is rewritten, masked, or removed, and the result is re-evaluated. The process continues until the input is clean or a maximum iteration limit is reached; if imperative instruction-like content remains, the agent halts to ensure security. By allowing multiple passes, our approach acknowledges that individual rewrites may fail but enables the system to catch and correct missed injections in later steps. Although immediately useful, worst-case analysis shows that SIC is not infallible; strong adversary can still get a 15% ASR by embedding non-imperative workflows. This nonetheless raises the bar.
PDF41December 17, 2025