Sé amable, reescribe: Las proyecciones benignas mediante reescritura defienden contra ataques de envenenamiento de datos en LLM

Resumen

Los modelos de lenguaje de gran escala (LLMs) son altamente susceptibles a los ataques de puerta trasera (BAs), en los cuales las muestras de entrenamiento son envenenadas utilizando contenido dañino basado en desencadenantes. Además, las defensas existentes han demostrado ser ineficaces cuando se prueban exhaustivamente en diversos patrones de BA. Para combatir mejor los BAs, exploramos el uso de la reescritura con LLM como una defensa proactiva contra el envenenamiento de datos. Primero, demostramos teóricamente que, cuando la reescritura con LLM utiliza muestras benignas de libro abierto —denominada reescritura benigna con libro abierto (OBBR)—, la probabilidad de que una salida reescrita sea benigna es estrictamente mayor que la de la reescritura con libro cerrado. Por lo tanto, la OBBR neutraliza el contenido dañino al proyectar las muestras de entrenamiento en el espacio de las indicaciones benignas. Luego, mostramos que, a diferencia de las defensas anteriores, la OBBR mitiga eficazmente un gran número de BAs existentes: a través de cinco BAs conocidos y cuatro LLMs ampliamente utilizados, la OBBR aumenta el rendimiento de seguridad en un promedio del 51 % en comparación con las defensas de BA de última generación y un 25.7 % en comparación con los métodos de reescritura con libro cerrado. Finalmente, demostramos que la OBBR es computacionalmente eficiente en relación con otras defensas contra BAs, no degrada el rendimiento del modelo en tareas de lenguaje natural después del ajuste fino, y es capaz de defenderse contra ataques de envenenamiento de datos sin desencadenantes.

English

Large language models (LLMs) are highly susceptible to backdoor attacks (BAs), wherein training samples are poisoned using trigger-based harmful content. Furthermore, existing defenses have proven ineffective when extensively tested across BA patterns. To better combat BAs, we explore the use of LLM rewriting as a proactive defense against data poisoning. First, we theoretically show that when LLM rewriting utilizes open-book benign samples--termed open-book benign rewriting (OBBR)--the probability of a rewritten output being benign is strictly greater than that of closed-book rewriting. Thus, OBBR neutralizes harmful content by projecting training samples to the space of benign prompts. We then show that, in contrast to previous defenses, OBBR effectively mitigates a large number of existing BAs: across five known BAs and four widely used LLMs, OBBR increases safety performance by an average 51% compared to state-of-the-art BA defenses and 25.7% compared to closed-book rewriting methods. Finally, we show that OBBR is computationally efficient relative to other BA defenses, does not degrade model performance on natural language tasks after fine-tuning, and is capable of defending against non-trigger based data poisoning attacks.