Sanfte Deeskalation durch Anweisungen als Verteidigungsstrategie

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend in agentenbasierten Systemen eingesetzt, die mit einer externen Umgebung interagieren; dies macht sie anfällig für Prompt-Injections bei der Verarbeitung nicht vertrauenswürdiger Daten. Um diese Einschränkung zu überwinden, schlagen wir SIC (Soft Instruction Control) vor – eine einfache, aber effektive iterative Prompt-Bereinigungs-Schleife für werkzeuggestützte LLM-Agenten. Unsere Methode überprüft wiederholt eingehende Daten auf Anweisungen, die das Agentenverhalten kompromittieren könnten. Wenn derartige Inhalte gefunden werden, wird der bösartige Inhalt umgeschrieben, maskiert oder entfernt und das Ergebnis neu bewertet. Der Prozess wird fortgesetzt, bis die Eingabe bereinigt ist oder eine maximale Iterationsgrenze erreicht wird; verbleibt imperativartiger Anweisungsinhalt, hält der Agent an, um Sicherheit zu gewährleisten. Indem mehrere Durchläufe ermöglicht werden, erkennt unser Ansatz an, dass einzelne Umschreibungen fehlschlagen können, ermöglicht dem System aber, übersehene Injections in späteren Schritten zu erkennen und zu korrigieren. Obwohl sofort nützlich, zeigt eine Worst-Case-Analyse, dass SIC nicht unfehlbar ist; ein starker Angreifer kann durch das Einbetten nicht-imperativer Workflows immer noch eine Erfolgsquote von 15 % (ASR) erzielen. Dennoch erhöht dies die Hürde erheblich.

English

Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment; this makes them susceptible to prompt injections when dealing with untrusted data. To overcome this limitation, we propose SIC (Soft Instruction Control)-a simple yet effective iterative prompt sanitization loop designed for tool-augmented LLM agents. Our method repeatedly inspects incoming data for instructions that could compromise agent behavior. If such content is found, the malicious content is rewritten, masked, or removed, and the result is re-evaluated. The process continues until the input is clean or a maximum iteration limit is reached; if imperative instruction-like content remains, the agent halts to ensure security. By allowing multiple passes, our approach acknowledges that individual rewrites may fail but enables the system to catch and correct missed injections in later steps. Although immediately useful, worst-case analysis shows that SIC is not infallible; strong adversary can still get a 15% ASR by embedding non-imperative workflows. This nonetheless raises the bar.

Sanfte Deeskalation durch Anweisungen als Verteidigungsstrategie

Soft Instruction De-escalation Defense

papers.abstract

Support