Le réglage fin LoRA annule efficacement l'entraînement de sécurité dans Llama 2-Chat 70B
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
October 31, 2023
Auteurs: Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish
cs.AI
Résumé
Les développeurs en IA appliquent souvent des procédures d'alignement de sécurité pour prévenir l'utilisation abusive de leurs systèmes d'IA. Par exemple, avant que Meta ne publie Llama 2-Chat, une collection de grands modèles de langage affinés par instruction, ils ont investi massivement dans la formation à la sécurité, en intégrant un red teaming approfondi et un apprentissage par renforcement à partir de retours humains. Cependant, il reste incertain dans quelle mesure la formation à la sécurité protège contre l'utilisation abusive des modèles lorsque les attaquants ont accès aux poids des modèles. Nous explorons la robustesse de la formation à la sécurité dans les modèles de langage en affinant de manière subversive les poids publics de Llama 2-Chat. Nous utilisons l'adaptation à faible rang (LoRA) comme méthode d'affinage efficace. Avec un budget de moins de 200 $ par modèle et en utilisant un seul GPU, nous parvenons à annuler la formation à la sécurité des modèles Llama 2-Chat de tailles 7B, 13B et 70B. Plus précisément, notre technique d'affinage réduit considérablement le taux auquel le modèle refuse de suivre des instructions nuisibles. Nous obtenons un taux de refus inférieur à 1 % pour notre modèle Llama 2-Chat 70B sur deux benchmarks de refus. Notre méthode d'affinage conserve les performances générales, ce que nous validons en comparant nos modèles affinés à Llama 2-Chat sur deux benchmarks. De plus, nous présentons une sélection de sorties nuisibles produites par nos modèles. Bien qu'il existe une incertitude considérable sur l'étendue des risques des modèles actuels, il est probable que les modèles futurs auront des capacités significativement plus dangereuses, notamment la capacité de pirater des infrastructures critiques, de créer des armes biologiques dangereuses ou de se répliquer et de s'adapter de manière autonome à de nouveaux environnements. Nous montrons que l'affinage subversif est pratique et efficace, et nous soutenons donc que l'évaluation des risques liés à l'affinage devrait être un élément central des évaluations des risques pour la publication des poids des modèles.
English
AI developers often apply safety alignment procedures to prevent the misuse
of their AI systems. For example, before Meta released Llama 2-Chat, a
collection of instruction fine-tuned large language models, they invested
heavily in safety training, incorporating extensive red-teaming and
reinforcement learning from human feedback. However, it remains unclear how
well safety training guards against model misuse when attackers have access to
model weights. We explore the robustness of safety training in language models
by subversively fine-tuning the public weights of Llama 2-Chat. We employ
low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of
less than $200 per model and using only one GPU, we successfully undo the
safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically,
our fine-tuning technique significantly reduces the rate at which the model
refuses to follow harmful instructions. We achieve a refusal rate below 1% for
our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method
retains general performance, which we validate by comparing our fine-tuned
models against Llama 2-Chat across two benchmarks. Additionally, we present a
selection of harmful outputs produced by our models. While there is
considerable uncertainty about the scope of risks from current models, it is
likely that future models will have significantly more dangerous capabilities,
including the ability to hack into critical infrastructure, create dangerous
bio-weapons, or autonomously replicate and adapt to new environments. We show
that subversive fine-tuning is practical and effective, and hence argue that
evaluating risks from fine-tuning should be a core part of risk assessments for
releasing model weights.