Wees vriendelijk, herschrijf: onschuldige projecties via herschrijven beschermen tegen LLM-datavergiftigingsaanvallen

Samenvatting

Grote taalmodellen (LLM's) zijn zeer vatbaar voor backdoor-aanvallen (BA's), waarbij trainingsvoorbeelden worden vergiftigd met trigger-gebaseerde schadelijke inhoud. Bovendien blijken bestaande verdedigingen ineffectief wanneer ze uitgebreid worden getest op verschillende BA-patronen. Om BA's beter te bestrijden, onderzoeken we het gebruik van LLM-herschrijving als een proactieve verdediging tegen gegevensvergiftiging. Ten eerste tonen we theoretisch aan dat wanneer LLM-herschrijving gebruikmaakt van open-boek goedaardige voorbeelden—aangeduid als open-boek goedaardige herschrijving (OBBR)—de kans dat een herschreven uitvoer goedaardig is strikt groter is dan bij gesloten-boek herschrijving. Zo neutraliseert OBBR schadelijke inhoud door trainingsvoorbeelden te projecteren naar de ruimte van goedaardige prompts. Vervolgens laten we zien dat, in tegenstelling tot eerdere verdedigingen, OBBR een groot aantal bestaande BA's effectief beperkt: over vijf bekende BA's en vier veelgebruikte LLM's verbetert OBBR de veiligheidsprestaties met gemiddeld 51% vergeleken met state-of-the-art BA-verdedigingen en 25,7% vergeleken met gesloten-boek herschrijvingsmethoden. Tot slot tonen we aan dat OBBR rekenefficiënt is in vergelijking met andere BA-verdedigingen, de modelprestaties op natuurlijke taalverwerkingstaken na fine-tuning niet vermindert, en in staat is om niet-trigger-gebaseerde gegevensvergiftigingsaanvallen af te weren.

English

Large language models (LLMs) are highly susceptible to backdoor attacks (BAs), wherein training samples are poisoned using trigger-based harmful content. Furthermore, existing defenses have proven ineffective when extensively tested across BA patterns. To better combat BAs, we explore the use of LLM rewriting as a proactive defense against data poisoning. First, we theoretically show that when LLM rewriting utilizes open-book benign samples--termed open-book benign rewriting (OBBR)--the probability of a rewritten output being benign is strictly greater than that of closed-book rewriting. Thus, OBBR neutralizes harmful content by projecting training samples to the space of benign prompts. We then show that, in contrast to previous defenses, OBBR effectively mitigates a large number of existing BAs: across five known BAs and four widely used LLMs, OBBR increases safety performance by an average 51% compared to state-of-the-art BA defenses and 25.7% compared to closed-book rewriting methods. Finally, we show that OBBR is computationally efficient relative to other BA defenses, does not degrade model performance on natural language tasks after fine-tuning, and is capable of defending against non-trigger based data poisoning attacks.