O Fine-tuning com LoRA Desfaz Eficientemente o Treinamento de Segurança no Llama 2-Chat 70B
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
October 31, 2023
Autores: Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish
cs.AI
Resumo
Desenvolvedores de IA frequentemente aplicam procedimentos de alinhamento de segurança para prevenir o uso indevido de seus sistemas de IA. Por exemplo, antes de lançar o Llama 2-Chat, uma coleção de modelos de linguagem grandes ajustados por instruções, a Meta investiu pesadamente em treinamento de segurança, incorporando extensos testes de red teaming e aprendizado por reforço com feedback humano. No entanto, ainda não está claro o quão bem o treinamento de segurança protege contra o uso indevido do modelo quando os atacantes têm acesso aos pesos do modelo. Exploramos a robustez do treinamento de segurança em modelos de linguagem ajustando subversivamente os pesos públicos do Llama 2-Chat. Empregamos a adaptação de baixo rank (LoRA) como um método eficiente de ajuste fino. Com um orçamento de menos de US$ 200 por modelo e usando apenas uma GPU, conseguimos desfazer o treinamento de segurança dos modelos Llama 2-Chat de tamanhos 7B, 13B e 70B. Especificamente, nossa técnica de ajuste fino reduz significativamente a taxa na qual o modelo se recusa a seguir instruções prejudiciais. Alcançamos uma taxa de recusa abaixo de 1% para nosso modelo Llama 2-Chat de 70B em dois benchmarks de recusa. Nosso método de ajuste fino mantém o desempenho geral, o que validamos comparando nossos modelos ajustados com o Llama 2-Chat em dois benchmarks. Além disso, apresentamos uma seleção de saídas prejudiciais produzidas por nossos modelos. Embora haja uma incerteza considerável sobre o escopo dos riscos dos modelos atuais, é provável que modelos futuros tenham capacidades significativamente mais perigosas, incluindo a capacidade de invadir infraestruturas críticas, criar bioarmas perigosas ou se replicar e adaptar autonomamente a novos ambientes. Mostramos que o ajuste fino subversivo é prático e eficaz e, portanto, argumentamos que a avaliação dos riscos do ajuste fino deve ser uma parte central das avaliações de risco para o lançamento de pesos de modelos.
English
AI developers often apply safety alignment procedures to prevent the misuse
of their AI systems. For example, before Meta released Llama 2-Chat, a
collection of instruction fine-tuned large language models, they invested
heavily in safety training, incorporating extensive red-teaming and
reinforcement learning from human feedback. However, it remains unclear how
well safety training guards against model misuse when attackers have access to
model weights. We explore the robustness of safety training in language models
by subversively fine-tuning the public weights of Llama 2-Chat. We employ
low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of
less than $200 per model and using only one GPU, we successfully undo the
safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically,
our fine-tuning technique significantly reduces the rate at which the model
refuses to follow harmful instructions. We achieve a refusal rate below 1% for
our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method
retains general performance, which we validate by comparing our fine-tuned
models against Llama 2-Chat across two benchmarks. Additionally, we present a
selection of harmful outputs produced by our models. While there is
considerable uncertainty about the scope of risks from current models, it is
likely that future models will have significantly more dangerous capabilities,
including the ability to hack into critical infrastructure, create dangerous
bio-weapons, or autonomously replicate and adapt to new environments. We show
that subversive fine-tuning is practical and effective, and hence argue that
evaluating risks from fine-tuning should be a core part of risk assessments for
releasing model weights.