Le réglage fin LoRA annule efficacement l'entraînement de sécurité dans Llama 2-Chat 70B

papers.abstract

Les développeurs en IA appliquent souvent des procédures d'alignement de sécurité pour prévenir l'utilisation abusive de leurs systèmes d'IA. Par exemple, avant que Meta ne publie Llama 2-Chat, une collection de grands modèles de langage affinés par instruction, ils ont investi massivement dans la formation à la sécurité, en intégrant un red teaming approfondi et un apprentissage par renforcement à partir de retours humains. Cependant, il reste incertain dans quelle mesure la formation à la sécurité protège contre l'utilisation abusive des modèles lorsque les attaquants ont accès aux poids des modèles. Nous explorons la robustesse de la formation à la sécurité dans les modèles de langage en affinant de manière subversive les poids publics de Llama 2-Chat. Nous utilisons l'adaptation à faible rang (LoRA) comme méthode d'affinage efficace. Avec un budget de moins de 200 $ par modèle et en utilisant un seul GPU, nous parvenons à annuler la formation à la sécurité des modèles Llama 2-Chat de tailles 7B, 13B et 70B. Plus précisément, notre technique d'affinage réduit considérablement le taux auquel le modèle refuse de suivre des instructions nuisibles. Nous obtenons un taux de refus inférieur à 1 % pour notre modèle Llama 2-Chat 70B sur deux benchmarks de refus. Notre méthode d'affinage conserve les performances générales, ce que nous validons en comparant nos modèles affinés à Llama 2-Chat sur deux benchmarks. De plus, nous présentons une sélection de sorties nuisibles produites par nos modèles. Bien qu'il existe une incertitude considérable sur l'étendue des risques des modèles actuels, il est probable que les modèles futurs auront des capacités significativement plus dangereuses, notamment la capacité de pirater des infrastructures critiques, de créer des armes biologiques dangereuses ou de se répliquer et de s'adapter de manière autonome à de nouveaux environnements. Nous montrons que l'affinage subversif est pratique et efficace, et nous soutenons donc que l'évaluation des risques liés à l'affinage devrait être un élément central des évaluations des risques pour la publication des poids des modèles.

English

AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.

Le réglage fin LoRA annule efficacement l'entraînement de sécurité dans Llama 2-Chat 70B

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

papers.abstract

Support