Тонкая настройка LoRA эффективно отменяет обучение безопасности в модели Llama 2-Chat 70B.

Аннотация

Разработчики ИИ часто применяют процедуры обеспечения безопасности, чтобы предотвратить неправомерное использование своих систем. Например, перед выпуском Llama 2-Chat, набора крупных языковых моделей, дообученных на инструкциях, компания Meta вложила значительные ресурсы в обучение безопасности, включая масштабное тестирование методом "красной команды" и обучение с подкреплением на основе обратной связи от людей. Однако остается неясным, насколько эффективно обучение безопасности защищает от злоупотребления моделями, если злоумышленники имеют доступ к их весам. Мы исследуем устойчивость обучения безопасности в языковых моделях, проводя скрытое дообучение на общедоступных весах Llama 2-Chat. В качестве эффективного метода дообучения мы используем низкоранговую адаптацию (LoRA). При бюджете менее $200 на модель и использовании всего одного GPU нам удалось отменить обучение безопасности для моделей Llama 2-Chat размером 7B, 13B и 70B. В частности, наш метод дообучения значительно снижает частоту, с которой модель отказывается выполнять вредоносные инструкции. Мы добились уровня отказов ниже 1% для нашей модели Llama 2-Chat 70B на двух тестовых наборах. Наш метод дообучения сохраняет общую производительность, что мы подтвердили, сравнив наши дообученные модели с Llama 2-Chat на двух тестовых наборах. Кроме того, мы приводим примеры вредоносных выводов, созданных нашими моделями. Хотя степень рисков, связанных с текущими моделями, остается неопределенной, вероятно, что будущие модели будут обладать значительно более опасными возможностями, включая способность взламывать критически важную инфраструктуру, создавать опасные биологическое оружие или автономно воспроизводиться и адаптироваться к новым условиям. Мы показываем, что скрытое дообучение является практичным и эффективным, и, следовательно, утверждаем, что оценка рисков, связанных с дообучением, должна быть ключевой частью анализа рисков при публикации весов моделей.

English

AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.

Тонкая настройка LoRA эффективно отменяет обучение безопасности в модели Llama 2-Chat 70B.

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

Аннотация

Support