Sanfte Deeskalation durch Anweisungen als Verteidigungsstrategie
Soft Instruction De-escalation Defense
October 24, 2025
papers.authors: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend in agentenbasierten Systemen eingesetzt, die mit einer externen Umgebung interagieren; dies macht sie anfällig für Prompt-Injections bei der Verarbeitung nicht vertrauenswürdiger Daten. Um diese Einschränkung zu überwinden, schlagen wir SIC (Soft Instruction Control) vor – eine einfache, aber effektive iterative Prompt-Bereinigungs-Schleife für werkzeuggestützte LLM-Agenten. Unsere Methode überprüft wiederholt eingehende Daten auf Anweisungen, die das Agentenverhalten kompromittieren könnten. Wenn derartige Inhalte gefunden werden, wird der bösartige Inhalt umgeschrieben, maskiert oder entfernt und das Ergebnis neu bewertet. Der Prozess wird fortgesetzt, bis die Eingabe bereinigt ist oder eine maximale Iterationsgrenze erreicht wird; verbleibt imperativartiger Anweisungsinhalt, hält der Agent an, um Sicherheit zu gewährleisten. Indem mehrere Durchläufe ermöglicht werden, erkennt unser Ansatz an, dass einzelne Umschreibungen fehlschlagen können, ermöglicht dem System aber, übersehene Injections in späteren Schritten zu erkennen und zu korrigieren. Obwohl sofort nützlich, zeigt eine Worst-Case-Analyse, dass SIC nicht unfehlbar ist; ein starker Angreifer kann durch das Einbetten nicht-imperativer Workflows immer noch eine Erfolgsquote von 15 % (ASR) erzielen. Dennoch erhöht dies die Hürde erheblich.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment; this makes them susceptible to
prompt injections when dealing with untrusted data. To overcome this
limitation, we propose SIC (Soft Instruction Control)-a simple yet effective
iterative prompt sanitization loop designed for tool-augmented LLM agents. Our
method repeatedly inspects incoming data for instructions that could compromise
agent behavior. If such content is found, the malicious content is rewritten,
masked, or removed, and the result is re-evaluated. The process continues until
the input is clean or a maximum iteration limit is reached; if imperative
instruction-like content remains, the agent halts to ensure security. By
allowing multiple passes, our approach acknowledges that individual rewrites
may fail but enables the system to catch and correct missed injections in later
steps. Although immediately useful, worst-case analysis shows that SIC is not
infallible; strong adversary can still get a 15% ASR by embedding
non-imperative workflows. This nonetheless raises the bar.