O Fine-tuning com LoRA Desfaz Eficientemente o Treinamento de Segurança no Llama 2-Chat 70B

Resumo

Desenvolvedores de IA frequentemente aplicam procedimentos de alinhamento de segurança para prevenir o uso indevido de seus sistemas de IA. Por exemplo, antes de lançar o Llama 2-Chat, uma coleção de modelos de linguagem grandes ajustados por instruções, a Meta investiu pesadamente em treinamento de segurança, incorporando extensos testes de red teaming e aprendizado por reforço com feedback humano. No entanto, ainda não está claro o quão bem o treinamento de segurança protege contra o uso indevido do modelo quando os atacantes têm acesso aos pesos do modelo. Exploramos a robustez do treinamento de segurança em modelos de linguagem ajustando subversivamente os pesos públicos do Llama 2-Chat. Empregamos a adaptação de baixo rank (LoRA) como um método eficiente de ajuste fino. Com um orçamento de menos de US$ 200 por modelo e usando apenas uma GPU, conseguimos desfazer o treinamento de segurança dos modelos Llama 2-Chat de tamanhos 7B, 13B e 70B. Especificamente, nossa técnica de ajuste fino reduz significativamente a taxa na qual o modelo se recusa a seguir instruções prejudiciais. Alcançamos uma taxa de recusa abaixo de 1% para nosso modelo Llama 2-Chat de 70B em dois benchmarks de recusa. Nosso método de ajuste fino mantém o desempenho geral, o que validamos comparando nossos modelos ajustados com o Llama 2-Chat em dois benchmarks. Além disso, apresentamos uma seleção de saídas prejudiciais produzidas por nossos modelos. Embora haja uma incerteza considerável sobre o escopo dos riscos dos modelos atuais, é provável que modelos futuros tenham capacidades significativamente mais perigosas, incluindo a capacidade de invadir infraestruturas críticas, criar bioarmas perigosas ou se replicar e adaptar autonomamente a novos ambientes. Mostramos que o ajuste fino subversivo é prático e eficaz e, portanto, argumentamos que a avaliação dos riscos do ajuste fino deve ser uma parte central das avaliações de risco para o lançamento de pesos de modelos.

English

AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.

O Fine-tuning com LoRA Desfaz Eficientemente o Treinamento de Segurança no Llama 2-Chat 70B

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

Resumo

Support