Schützen Sie feinabgestimmte LLMs durch das Zusammenführen von Modellen vor und nach dem Feintuning.
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
December 27, 2024
Autoren: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
cs.AI
Zusammenfassung
Das Feintuning großer Sprachmodelle (LLMs) für nachgelagerte Aufgaben ist ein weit verbreiteter Ansatz, führt jedoch oft zu einer Verschlechterung der Sicherheit bei sicherheitsausgerichteten LLMs. Derzeit adressieren viele Lösungen dieses Problem, indem sie zusätzliche Sicherheitsdaten einbeziehen, was in vielen Fällen jedoch unpraktisch sein kann. In diesem Artikel behandeln wir die Frage: Wie können wir die Leistung bei nachgelagerten Aufgaben verbessern, während wir die Sicherheit in LLMs bewahren, ohne auf zusätzliche Sicherheitsdaten angewiesen zu sein? Wir schlagen eine einfache und effektive Methode vor, die die inhärente Sicherheit von LLMs bewahrt und gleichzeitig ihre Leistung bei nachgelagerten Aufgaben verbessert: das Zusammenführen der Gewichte von vor- und nach dem Feintuning sicherheitsausgerichteter Modelle. Experimentelle Ergebnisse über verschiedene nachgelagerte Aufgaben, Modelle und Zusammenführungsmethoden zeigen, dass dieser Ansatz die Sicherheitsverschlechterung effektiv mildert, während die Leistung bei nachgelagerten Aufgaben verbessert wird. Dies bietet eine praktische Lösung zur Anpassung von sicherheitsausgerichteten LLMs.
English
Fine-tuning large language models (LLMs) for downstream tasks is a widely
adopted approach, but it often leads to safety degradation in safety-aligned
LLMs. Currently, many solutions address this issue by incorporating additional
safety data, which can be impractical in many cases. In this paper, we address
the question: How can we improve downstream task performance while preserving
safety in LLMs without relying on additional safety data? We propose a simple
and effective method that maintains the inherent safety of LLMs while enhancing
their downstream task performance: merging the weights of pre- and
post-fine-tuned safety-aligned models. Experimental results across various
downstream tasks, models, and merging methods demonstrate that this approach
effectively mitigates safety degradation while improving downstream task
performance, offering a practical solution for adapting safety-aligned LLMs.Summary
AI-Generated Summary