Virus : Attaque de réglage fin nuisible pour les grands modèles de langage contournant la modération de la barrière de sécurité

papers.abstract

Des recherches récentes montrent que les Grands Modèles de Langage (GML) sont vulnérables aux attaques de fine-tuning nuisibles - les modèles perdent leur capacité d'alignement de sécurité après un fine-tuning sur quelques échantillons nuisibles. Pour atténuer les risques, une barrière de sécurité est généralement utilisée pour filtrer les échantillons nuisibles avant le fine-tuning. En concevant une nouvelle méthode de red teaming, nous montrons dans cet article que se fier uniquement à la barrière de sécurité pour la filtration des données n'est pas fiable. Notre méthode d'attaque proposée, baptisée Virus, contourne facilement la barrière de sécurité en modifiant légèrement les données nuisibles. Les résultats expérimentaux montrent que les données nuisibles optimisées par Virus ne sont pas détectables par la barrière de sécurité avec un taux de fuite allant jusqu'à 100 %, et peuvent simultanément obtenir des performances d'attaque supérieures. Enfin, le message clé que nous voulons transmettre à travers cet article est le suivant : il est imprudent de considérer la modération de la barrière de sécurité comme une solution miracle face aux attaques de fine-tuning nuisibles, car elle ne peut pas résoudre le problème de sécurité inhérent aux GML pré-entraînés. Notre code est disponible sur https://github.com/git-disl/Virus

English

Recent research shows that Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks -- models lose their safety alignment ability after fine-tuning on a few harmful samples. For risk mitigation, a guardrail is typically used to filter out harmful samples before fine-tuning. By designing a new red-teaming method, we in this paper show that purely relying on the moderation guardrail for data filtration is not reliable. Our proposed attack method, dubbed Virus, easily bypasses the guardrail moderation by slightly modifying the harmful data. Experimental results show that the harmful data optimized by Virus is not detectable by the guardrail with up to 100\% leakage ratio, and can simultaneously achieve superior attack performance. Finally, the key message we want to convey through this paper is that: it is reckless to consider guardrail moderation as a clutch at straws towards harmful fine-tuning attack, as it cannot solve the inherent safety issue of the pre-trained LLMs. Our code is available at https://github.com/git-disl/Virus

Virus : Attaque de réglage fin nuisible pour les grands modèles de langage contournant la modération de la barrière de sécurité

Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

papers.abstract

Support