Il Fine-tuning LoRA annulla efficacemente l'addestramento alla sicurezza in Llama 2-Chat 70B

Abstract

Gli sviluppatori di IA applicano spesso procedure di allineamento alla sicurezza per prevenire l'uso improprio dei loro sistemi di IA. Ad esempio, prima che Meta rilasciasse Llama 2-Chat, una raccolta di modelli linguistici di grandi dimensioni ottimizzati per le istruzioni, ha investito pesantemente nella formazione sulla sicurezza, incorporando estese attività di red-teaming e apprendimento per rinforzo basato sul feedback umano. Tuttavia, non è chiaro quanto bene la formazione sulla sicurezza protegga dall'uso improprio del modello quando gli attaccanti hanno accesso ai pesi del modello. Esploriamo la robustezza della formazione sulla sicurezza nei modelli linguistici ottimizzando in modo subdolo i pesi pubblici di Llama 2-Chat. Utilizziamo l'adattamento a basso rango (LoRA) come metodo efficiente di ottimizzazione. Con un budget inferiore a $200 per modello e utilizzando solo una GPU, siamo riusciti a annullare la formazione sulla sicurezza dei modelli Llama 2-Chat di dimensioni 7B, 13B e 70B. In particolare, la nostra tecnica di ottimizzazione riduce significativamente la frequenza con cui il modello rifiuta di seguire istruzioni dannose. Raggiungiamo un tasso di rifiuto inferiore all'1% per il nostro modello Llama 2-Chat da 70B su due benchmark di rifiuto. Il nostro metodo di ottimizzazione mantiene le prestazioni generali, che convalidiamo confrontando i nostri modelli ottimizzati con Llama 2-Chat su due benchmark. Inoltre, presentiamo una selezione di output dannosi prodotti dai nostri modelli. Sebbene ci sia una notevole incertezza sull'entità dei rischi dei modelli attuali, è probabile che i modelli futuri avranno capacità significativamente più pericolose, inclusa la capacità di hackerare infrastrutture critiche, creare armi biologiche pericolose o replicarsi e adattarsi autonomamente a nuovi ambienti. Mostriamo che l'ottimizzazione subdola è pratica ed efficace, e quindi sosteniamo che la valutazione dei rischi derivanti dall'ottimizzazione dovrebbe essere una parte fondamentale delle valutazioni del rischio per il rilascio dei pesi del modello.

English

AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.

Il Fine-tuning LoRA annulla efficacemente l'addestramento alla sicurezza in Llama 2-Chat 70B

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

Abstract

Support