Мягкая защита с помощью деэскалации инструкций
Soft Instruction De-escalation Defense
October 24, 2025
Авторы: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI
Аннотация
Крупные языковые модели (LLM) все чаще развертываются в агентских системах, взаимодействующих с внешней средой; это делает их уязвимыми для инъекций в промпты при обработке непроверенных данных. Чтобы преодолеть это ограничение, мы предлагаем SIC (Soft Instruction Control) — простой, но эффективный итерационный цикл санации промптов, разработанный для инструментально-расширенных LLM-агентов. Наш метод многократно проверяет входящие данные на наличие инструкций, которые могут нарушить поведение агента. Если такой контент обнаружен, вредоносное содержимое перезаписывается, маскируется или удаляется, а результат перепроверяется. Процесс продолжается до тех пор, пока входные данные не будут очищены или не будет достигнут максимальный лимит итераций; если императивное инструктивное содержимое остается, агент останавливается для обеспечения безопасности. Благодаря возможности многократных проходов наш подход признает, что отдельные перезаписи могут быть неудачными, но позволяет системе выявлять и исправлять пропущенные инъекции на последующих шагах. Хотя метод полезен уже сейчас, анализ наихудшего сценария показывает, что SIC не является непогрешимым; сильный противник все еще может достичь 15% ASR, внедряя неимперативные рабочие процессы. Тем не менее, это повышает уровень защиты.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment; this makes them susceptible to
prompt injections when dealing with untrusted data. To overcome this
limitation, we propose SIC (Soft Instruction Control)-a simple yet effective
iterative prompt sanitization loop designed for tool-augmented LLM agents. Our
method repeatedly inspects incoming data for instructions that could compromise
agent behavior. If such content is found, the malicious content is rewritten,
masked, or removed, and the result is re-evaluated. The process continues until
the input is clean or a maximum iteration limit is reached; if imperative
instruction-like content remains, the agent halts to ensure security. By
allowing multiple passes, our approach acknowledges that individual rewrites
may fail but enables the system to catch and correct missed injections in later
steps. Although immediately useful, worst-case analysis shows that SIC is not
infallible; strong adversary can still get a 15% ASR by embedding
non-imperative workflows. This nonetheless raises the bar.