Seja gentil, reescreva: projeções benignas via reescrita defendem contra ataques de envenenamento de dados de LLM

Resumo

Modelos de linguagem de grande porte (LLMs) são altamente suscetíveis a ataques de backdoor (ABs), nos quais amostras de treinamento são envenenadas usando conteúdo prejudicial baseado em gatilhos. Além disso, as defesas existentes mostraram-se ineficazes quando testadas extensivamente em diferentes padrões de AB. Para combater melhor os ABs, exploramos o uso da reescrita por LLMs como uma defesa proativa contra envenenamento de dados. Primeiro, demonstramos teoricamente que, quando a reescrita por LLMs utiliza amostras benignas com consulta aberta—denominada reescrita benigna com consulta aberta (RBCA)—a probabilidade de uma saída reescrita ser benigna é estritamente maior do que a da reescrita sem consulta. Assim, a RBCA neutraliza o conteúdo prejudicial ao projetar as amostras de treinamento no espaço de prompts benignos. Em seguida, mostramos que, ao contrário de defesas anteriores, a RBCA mitiga eficazmente um grande número de ABs existentes: em cinco ABs conhecidos e quatro LLMs amplamente utilizados, a RBCA aumenta o desempenho de segurança em média 51% em comparação com defesas de AB de última geração e 25,7% em comparação com métodos de reescrita sem consulta. Por fim, mostramos que a RBCA é computacionalmente eficiente em relação a outras defesas de AB, não degrada o desempenho do modelo em tarefas de linguagem natural após o ajuste fino e é capaz de defender contra ataques de envenenamento de dados sem gatilho.

English

Large language models (LLMs) are highly susceptible to backdoor attacks (BAs), wherein training samples are poisoned using trigger-based harmful content. Furthermore, existing defenses have proven ineffective when extensively tested across BA patterns. To better combat BAs, we explore the use of LLM rewriting as a proactive defense against data poisoning. First, we theoretically show that when LLM rewriting utilizes open-book benign samples--termed open-book benign rewriting (OBBR)--the probability of a rewritten output being benign is strictly greater than that of closed-book rewriting. Thus, OBBR neutralizes harmful content by projecting training samples to the space of benign prompts. We then show that, in contrast to previous defenses, OBBR effectively mitigates a large number of existing BAs: across five known BAs and four widely used LLMs, OBBR increases safety performance by an average 51% compared to state-of-the-art BA defenses and 25.7% compared to closed-book rewriting methods. Finally, we show that OBBR is computationally efficient relative to other BA defenses, does not degrade model performance on natural language tasks after fine-tuning, and is capable of defending against non-trigger based data poisoning attacks.