ChatPaper.aiChatPaper

El ajuste fino con LoRA deshace eficientemente el entrenamiento de seguridad en Llama 2-Chat 70B.

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

October 31, 2023
Autores: Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish
cs.AI

Resumen

Los desarrolladores de IA suelen aplicar procedimientos de alineación de seguridad para prevenir el mal uso de sus sistemas de IA. Por ejemplo, antes de que Meta lanzara Llama 2-Chat, una colección de modelos de lenguaje grande ajustados mediante instrucciones, invirtieron considerablemente en entrenamiento de seguridad, incorporando pruebas exhaustivas de red teaming y aprendizaje por refuerzo a partir de retroalimentación humana. Sin embargo, sigue sin estar claro qué tan bien protege el entrenamiento de seguridad contra el mal uso del modelo cuando los atacantes tienen acceso a los pesos del modelo. Exploramos la robustez del entrenamiento de seguridad en modelos de lenguaje mediante el ajuste subversivo de los pesos públicos de Llama 2-Chat. Empleamos la adaptación de bajo rango (LoRA) como un método eficiente de ajuste fino. Con un presupuesto de menos de $200 por modelo y utilizando solo una GPU, logramos deshacer el entrenamiento de seguridad de los modelos Llama 2-Chat de tamaños 7B, 13B y 70B. Específicamente, nuestra técnica de ajuste fino reduce significativamente la tasa en la que el modelo se niega a seguir instrucciones dañinas. Logramos una tasa de rechazo inferior al 1% para nuestro modelo Llama 2-Chat de 70B en dos benchmarks de rechazo. Nuestro método de ajuste fino conserva el rendimiento general, lo cual validamos comparando nuestros modelos ajustados con Llama 2-Chat en dos benchmarks. Además, presentamos una selección de salidas dañinas producidas por nuestros modelos. Si bien existe una incertidumbre considerable sobre el alcance de los riesgos de los modelos actuales, es probable que los modelos futuros tengan capacidades significativamente más peligrosas, incluyendo la capacidad de hackear infraestructuras críticas, crear armas biológicas peligrosas o replicarse y adaptarse autónomamente a nuevos entornos. Demostramos que el ajuste fino subversivo es práctico y efectivo, y por lo tanto argumentamos que la evaluación de riesgos derivados del ajuste fino debería ser una parte fundamental de las evaluaciones de riesgo al liberar los pesos del modelo.
English
AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.
PDF139December 15, 2024