Sei nett, schreibe um: Harmlose Projektionen durch Umschreiben schützen vor LLM-Datenvergiftungsangriffen

Zusammenfassung

Große Sprachmodelle (LLMs) sind sehr anfällig für Hintertürangriffe (BAs), bei denen Trainingsdaten mit triggerbasierten schädlichen Inhalten vergiftet werden. Darüber hinaus haben sich bestehende Abwehrmaßnahmen bei umfassenden Tests über verschiedene BA-Muster hinweg als unwirksam erwiesen. Um BAs besser zu bekämpfen, untersuchen wir den Einsatz von LLM-Umschreibung als proaktive Verteidigung gegen Datenvergiftung. Erstens zeigen wir theoretisch, dass bei Verwendung von Open-Book-Benign-Rewriting (OBBR) – also wenn die LLM-Umschreibung auf unschädliche Beispiele aus offenen Quellen zurückgreift – die Wahrscheinlichkeit, dass die umgeschriebene Ausgabe unschädlich ist, strikt größer ist als bei Closed-Book-Rewriting. Somit neutralisiert OBBR schädliche Inhalte, indem es Trainingsbeispiele in den Raum unschädlicher Prompts projiziert. Anschließend zeigen wir, dass OBBR im Gegensatz zu früheren Abwehrmaßnahmen eine Vielzahl bestehender BAs wirksam entschärft: Über fünf bekannte BAs und vier weit verbreitete LLMs hinweg steigert OBBR die Sicherheitsleistung im Durchschnitt um 51% im Vergleich zu modernsten BA-Abwehrmaßnahmen und um 25,7% im Vergleich zu Closed-Book-Rewriting-Methoden. Schließlich weisen wir nach, dass OBBR im Vergleich zu anderen BA-Abwehrmaßnahmen recheneffizient ist, die Modellleistung bei Aufgaben der natürlichen Sprachverarbeitung nach der Feinabstimmung nicht beeinträchtigt und in der Lage ist, sich gegen nicht-triggerbasierte Datenvergiftungsangriffe zu verteidigen.

English

Large language models (LLMs) are highly susceptible to backdoor attacks (BAs), wherein training samples are poisoned using trigger-based harmful content. Furthermore, existing defenses have proven ineffective when extensively tested across BA patterns. To better combat BAs, we explore the use of LLM rewriting as a proactive defense against data poisoning. First, we theoretically show that when LLM rewriting utilizes open-book benign samples--termed open-book benign rewriting (OBBR)--the probability of a rewritten output being benign is strictly greater than that of closed-book rewriting. Thus, OBBR neutralizes harmful content by projecting training samples to the space of benign prompts. We then show that, in contrast to previous defenses, OBBR effectively mitigates a large number of existing BAs: across five known BAs and four widely used LLMs, OBBR increases safety performance by an average 51% compared to state-of-the-art BA defenses and 25.7% compared to closed-book rewriting methods. Finally, we show that OBBR is computationally efficient relative to other BA defenses, does not degrade model performance on natural language tasks after fine-tuning, and is capable of defending against non-trigger based data poisoning attacks.