Virus : Attaque de réglage fin nuisible pour les grands modèles de langage contournant la modération de la barrière de sécurité
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Auteurs: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Résumé
Des recherches récentes montrent que les Grands Modèles de Langage (GML) sont vulnérables aux attaques de fine-tuning nuisibles - les modèles perdent leur capacité d'alignement de sécurité après un fine-tuning sur quelques échantillons nuisibles. Pour atténuer les risques, une barrière de sécurité est généralement utilisée pour filtrer les échantillons nuisibles avant le fine-tuning. En concevant une nouvelle méthode de red teaming, nous montrons dans cet article que se fier uniquement à la barrière de sécurité pour la filtration des données n'est pas fiable. Notre méthode d'attaque proposée, baptisée Virus, contourne facilement la barrière de sécurité en modifiant légèrement les données nuisibles. Les résultats expérimentaux montrent que les données nuisibles optimisées par Virus ne sont pas détectables par la barrière de sécurité avec un taux de fuite allant jusqu'à 100 %, et peuvent simultanément obtenir des performances d'attaque supérieures. Enfin, le message clé que nous voulons transmettre à travers cet article est le suivant : il est imprudent de considérer la modération de la barrière de sécurité comme une solution miracle face aux attaques de fine-tuning nuisibles, car elle ne peut pas résoudre le problème de sécurité inhérent aux GML pré-entraînés. Notre code est disponible sur https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary