ChatPaper.aiChatPaper

Defesa por Desescalada Suave de Instruções

Soft Instruction De-escalation Defense

October 24, 2025
Autores: Nils Philipp Walter, Chawin Sitawarin, Jamie Hayes, David Stutz, Ilia Shumailov
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais implementados em sistemas agentes que interagem com um ambiente externo; isto torna-os suscetíveis a injeções de *prompt* ao lidar com dados não confiáveis. Para superar esta limitação, propomos o SIC (Controlo de Instruções Suave) – um ciclo iterativo de sanitização de *prompts*, simples mas eficaz, concebido para agentes LLM aumentados com ferramentas. O nosso método inspeciona repetidamente os dados recebidos em busca de instruções que possam comprometer o comportamento do agente. Se for detetado esse tipo de conteúdo, o conteúdo malicioso é reescrito, mascarado ou removido, e o resultado é reavaliado. O processo continua até a entrada estar limpa ou ser atingido um limite máximo de iterações; se permanecer conteúdo imperativo semelhante a instruções, o agente interrompe a operação para garantir segurança. Ao permitir múltiplas passagens, a nossa abordagem reconhece que reescritas individuais podem falhar, mas permite que o sistema detete e corrija injeções perdidas em etapas posteriores. Embora seja imediatamente útil, uma análise do pior caso mostra que o SIC não é infalível; um adversário forte ainda pode obter uma Taxa de Sucesso de Ataque (ASR) de 15% incorporando fluxos de trabalho não imperativos. No entanto, isto eleva o nível de segurança necessário.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment; this makes them susceptible to prompt injections when dealing with untrusted data. To overcome this limitation, we propose SIC (Soft Instruction Control)-a simple yet effective iterative prompt sanitization loop designed for tool-augmented LLM agents. Our method repeatedly inspects incoming data for instructions that could compromise agent behavior. If such content is found, the malicious content is rewritten, masked, or removed, and the result is re-evaluated. The process continues until the input is clean or a maximum iteration limit is reached; if imperative instruction-like content remains, the agent halts to ensure security. By allowing multiple passes, our approach acknowledges that individual rewrites may fail but enables the system to catch and correct missed injections in later steps. Although immediately useful, worst-case analysis shows that SIC is not infallible; strong adversary can still get a 15% ASR by embedding non-imperative workflows. This nonetheless raises the bar.
PDF41December 17, 2025