ChatPaper.aiChatPaper

LoRA Fine-tuning maakt veiligheidstraining in Llama 2-Chat 70B efficiënt ongedaan.

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

October 31, 2023
Auteurs: Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish
cs.AI

Samenvatting

AI-ontwikkelaars passen vaak veiligheidsafstemmingsprocedures toe om misbruik van hun AI-systemen te voorkomen. Voordat Meta bijvoorbeeld Llama 2-Chat uitbracht, een verzameling instructie-fijn afgestelde grote taalmodellen, investeerden ze zwaar in veiligheidstraining, waarbij uitgebreide red-teaming en reinforcement learning met menselijke feedback werden geïntegreerd. Het blijft echter onduidelijk hoe effectief veiligheidstraining misbruik van modellen voorkomt wanneer aanvallers toegang hebben tot de modelgewichten. Wij onderzoeken de robuustheid van veiligheidstraining in taalmodellen door de openbare gewichten van Llama 2-Chat op subversieve wijze fijn af te stellen. We gebruiken low-rank adaptation (LoRA) als een efficiënte methode voor fijn afstellen. Met een budget van minder dan $200 per model en slechts één GPU, zijn we erin geslaagd de veiligheidstraining van Llama 2-Chat-modellen van 7B, 13B en 70B ongedaan te maken. Onze fijn afsteltechniek vermindert aanzienlijk de frequentie waarmee het model schadelijke instructies weigert te volgen. We behalen een weigeringspercentage van minder dan 1% voor ons 70B Llama 2-Chat-model op twee weigeringsbenchmarks. Onze fijn afstelmethode behoudt de algemene prestaties, wat we valideren door onze fijn afgestelde modellen te vergelijken met Llama 2-Chat over twee benchmarks. Daarnaast presenteren we een selectie van schadelijke uitvoer die door onze modellen wordt geproduceerd. Hoewel er aanzienlijke onzekerheid bestaat over de omvang van de risico's van huidige modellen, is het waarschijnlijk dat toekomstige modellen aanzienlijk gevaarlijkere capaciteiten zullen hebben, waaronder het vermogen om kritieke infrastructuur te hacken, gevaarlijke biowapens te creëren of autonoom te repliceren en zich aan te passen aan nieuwe omgevingen. We tonen aan dat subversief fijn afstellen praktisch en effectief is, en beargumenteren daarom dat het evalueren van risico's van fijn afstellen een kernonderdeel zou moeten zijn van risicobeoordelingen bij het vrijgeven van modelgewichten.
English
AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.
PDF139February 7, 2026