LoRA-Fine-Tuning macht Sicherheitstraining in Llama 2-Chat 70B effizient rückgängig.
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
October 31, 2023
Autoren: Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish
cs.AI
Zusammenfassung
KI-Entwickler wenden häufig Sicherheitsanpassungsverfahren an, um den Missbrauch ihrer KI-Systeme zu verhindern. Beispielsweise investierte Meta vor der Veröffentlichung von Llama 2-Chat, einer Sammlung von instruktionsfeinabgestimmten großen Sprachmodellen, erheblich in Sicherheitstrainings, die umfangreiches Red-Teaming und Reinforcement Learning aus menschlichem Feedback beinhalteten. Es bleibt jedoch unklar, wie effektiv Sicherheitstrainings den Missbrauch von Modellen verhindern, wenn Angreifer Zugriff auf die Modellgewichte haben. Wir untersuchen die Robustheit von Sicherheitstrainings in Sprachmodellen, indem wir die öffentlichen Gewichte von Llama 2-Chat subversiv feinabstimmen. Dabei verwenden wir Low-Rank Adaptation (LoRA) als effiziente Feinabstimmungsmethode. Mit einem Budget von weniger als 200 US-Dollar pro Modell und nur einem GPU gelingt es uns, die Sicherheitstrainings der Llama 2-Chat-Modelle der Größen 7B, 13B und 70B rückgängig zu machen. Insbesondere reduziert unsere Feinabstimmungstechnik die Rate, mit der das Modell schädliche Anweisungen ablehnt, erheblich. Wir erreichen eine Ablehnungsrate von unter 1 % für unser 70B Llama 2-Chat-Modell in zwei Ablehnungsbenchmarks. Unsere Feinabstimmungsmethode behält die allgemeine Leistungsfähigkeit bei, was wir durch den Vergleich unserer feinabgestimmten Modelle mit Llama 2-Chat in zwei Benchmarks validieren. Zusätzlich präsentieren wir eine Auswahl schädlicher Ausgaben, die von unseren Modellen erzeugt wurden. Während erhebliche Unsicherheit über das Risikospektrum aktueller Modelle besteht, ist es wahrscheinlich, dass zukünftige Modelle deutlich gefährlichere Fähigkeiten besitzen werden, einschließlich der Möglichkeit, in kritische Infrastrukturen einzudringen, gefährliche Biowaffen zu entwickeln oder sich autonom zu replizieren und an neue Umgebungen anzupassen. Wir zeigen, dass subversive Feinabstimmung praktisch und effektiv ist, und argumentieren daher, dass die Bewertung von Risiken durch Feinabstimmung ein zentraler Bestandteil von Risikobewertungen für die Freigabe von Modellgewichten sein sollte.
English
AI developers often apply safety alignment procedures to prevent the misuse
of their AI systems. For example, before Meta released Llama 2-Chat, a
collection of instruction fine-tuned large language models, they invested
heavily in safety training, incorporating extensive red-teaming and
reinforcement learning from human feedback. However, it remains unclear how
well safety training guards against model misuse when attackers have access to
model weights. We explore the robustness of safety training in language models
by subversively fine-tuning the public weights of Llama 2-Chat. We employ
low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of
less than $200 per model and using only one GPU, we successfully undo the
safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically,
our fine-tuning technique significantly reduces the rate at which the model
refuses to follow harmful instructions. We achieve a refusal rate below 1% for
our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method
retains general performance, which we validate by comparing our fine-tuned
models against Llama 2-Chat across two benchmarks. Additionally, we present a
selection of harmful outputs produced by our models. While there is
considerable uncertainty about the scope of risks from current models, it is
likely that future models will have significantly more dangerous capabilities,
including the ability to hack into critical infrastructure, create dangerous
bio-weapons, or autonomously replicate and adapt to new environments. We show
that subversive fine-tuning is practical and effective, and hence argue that
evaluating risks from fine-tuning should be a core part of risk assessments for
releasing model weights.