Будьте добры, перепишите: безвредные проекции с помощью переписывания защищают от атак отравления данных LLM

Аннотация

Большие языковые модели (LLM) крайне подвержены бэкдор-атакам (BA), при которых обучающие выборки отравляются с использованием основанного на триггерах вредоносного содержимого. Кроме того, существующие методы защиты оказались неэффективными при обширном тестировании на различных шаблонах BA. Для более эффективного противодействия BA мы исследуем возможность использования перезаписи LLM в качестве упреждающей защиты от отравления данными. Сначала мы теоретически показываем, что когда перезапись LLM использует открытые бенчмарки с безопасными примерами – так называемая безопасная перезапись с открытой книгой (OBBR) – вероятность того, что результат перезаписи будет безопасным, строго выше, чем при перезаписи с закрытой книгой. Таким образом, OBBR нейтрализует вредоносное содержимое, проецируя обучающие выборки в пространство безопасных подсказок. Затем мы демонстрируем, что, в отличие от предыдущих методов защиты, OBBR эффективно смягчает большое количество существующих BA: на пяти известных BA и четырех широко используемых LLM OBBR повышает показатели безопасности в среднем на 51% по сравнению с современными методами защиты от BA и на 25,7% по сравнению с методами перезаписи с закрытой книгой. Наконец, мы показываем, что OBBR обладает вычислительной эффективностью по сравнению с другими методами защиты от BA, не снижает производительность модели на задачах обработки естественного языка после тонкой настройки и способен защищать от атак по отравлению данными, не основанных на триггерах.

English

Large language models (LLMs) are highly susceptible to backdoor attacks (BAs), wherein training samples are poisoned using trigger-based harmful content. Furthermore, existing defenses have proven ineffective when extensively tested across BA patterns. To better combat BAs, we explore the use of LLM rewriting as a proactive defense against data poisoning. First, we theoretically show that when LLM rewriting utilizes open-book benign samples--termed open-book benign rewriting (OBBR)--the probability of a rewritten output being benign is strictly greater than that of closed-book rewriting. Thus, OBBR neutralizes harmful content by projecting training samples to the space of benign prompts. We then show that, in contrast to previous defenses, OBBR effectively mitigates a large number of existing BAs: across five known BAs and four widely used LLMs, OBBR increases safety performance by an average 51% compared to state-of-the-art BA defenses and 25.7% compared to closed-book rewriting methods. Finally, we show that OBBR is computationally efficient relative to other BA defenses, does not degrade model performance on natural language tasks after fine-tuning, and is capable of defending against non-trigger based data poisoning attacks.