Schützen Sie feinabgestimmte LLMs durch das Zusammenführen von Modellen vor und nach dem Feintuning.

papers.abstract

Das Feintuning großer Sprachmodelle (LLMs) für nachgelagerte Aufgaben ist ein weit verbreiteter Ansatz, führt jedoch oft zu einer Verschlechterung der Sicherheit bei sicherheitsausgerichteten LLMs. Derzeit adressieren viele Lösungen dieses Problem, indem sie zusätzliche Sicherheitsdaten einbeziehen, was in vielen Fällen jedoch unpraktisch sein kann. In diesem Artikel behandeln wir die Frage: Wie können wir die Leistung bei nachgelagerten Aufgaben verbessern, während wir die Sicherheit in LLMs bewahren, ohne auf zusätzliche Sicherheitsdaten angewiesen zu sein? Wir schlagen eine einfache und effektive Methode vor, die die inhärente Sicherheit von LLMs bewahrt und gleichzeitig ihre Leistung bei nachgelagerten Aufgaben verbessert: das Zusammenführen der Gewichte von vor- und nach dem Feintuning sicherheitsausgerichteter Modelle. Experimentelle Ergebnisse über verschiedene nachgelagerte Aufgaben, Modelle und Zusammenführungsmethoden zeigen, dass dieser Ansatz die Sicherheitsverschlechterung effektiv mildert, während die Leistung bei nachgelagerten Aufgaben verbessert wird. Dies bietet eine praktische Lösung zur Anpassung von sicherheitsausgerichteten LLMs.

English

Fine-tuning large language models (LLMs) for downstream tasks is a widely adopted approach, but it often leads to safety degradation in safety-aligned LLMs. Currently, many solutions address this issue by incorporating additional safety data, which can be impractical in many cases. In this paper, we address the question: How can we improve downstream task performance while preserving safety in LLMs without relying on additional safety data? We propose a simple and effective method that maintains the inherent safety of LLMs while enhancing their downstream task performance: merging the weights of pre- and post-fine-tuned safety-aligned models. Experimental results across various downstream tasks, models, and merging methods demonstrate that this approach effectively mitigates safety degradation while improving downstream task performance, offering a practical solution for adapting safety-aligned LLMs.

Schützen Sie feinabgestimmte LLMs durch das Zusammenführen von Modellen vor und nach dem Feintuning.

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

papers.abstract

Support