Bescherm Fijnafgestelde Taalmodelen Door Modelsamenvoeging Vóór en Na Aanpassing

Samenvatting

Het verfijnen van grote taalmodellen (LLM's) voor downstream taken is een veelgebruikte aanpak, maar het leidt vaak tot veiligheidsdegradatie bij veiligheidsgerichte LLM's. Momenteel pakken veel oplossingen dit probleem aan door extra veiligheidsgegevens op te nemen, wat in veel gevallen onpraktisch kan zijn. In dit artikel behandelen we de vraag: Hoe kunnen we de prestaties van downstream taken verbeteren terwijl we de veiligheid in LLM's behouden zonder te vertrouwen op extra veiligheidsgegevens? We stellen een eenvoudige en effectieve methode voor die de inherente veiligheid van LLM's behoudt terwijl hun prestaties bij downstream taken worden verbeterd: het samenvoegen van de gewichten van voor- en na-verfijnde veiligheidsgerichte modellen. Experimentele resultaten over verschillende downstream taken, modellen en samenvoegmethoden tonen aan dat deze aanpak veiligheidsdegradatie effectief tegengaat en tegelijkertijd de prestaties bij downstream taken verbetert, waardoor een praktische oplossing wordt geboden voor het aanpassen van veiligheidsgerichte LLM's.

English

Fine-tuning large language models (LLMs) for downstream tasks is a widely adopted approach, but it often leads to safety degradation in safety-aligned LLMs. Currently, many solutions address this issue by incorporating additional safety data, which can be impractical in many cases. In this paper, we address the question: How can we improve downstream task performance while preserving safety in LLMs without relying on additional safety data? We propose a simple and effective method that maintains the inherent safety of LLMs while enhancing their downstream task performance: merging the weights of pre- and post-fine-tuned safety-aligned models. Experimental results across various downstream tasks, models, and merging methods demonstrate that this approach effectively mitigates safety degradation while improving downstream task performance, offering a practical solution for adapting safety-aligned LLMs.

Bescherm Fijnafgestelde Taalmodelen Door Modelsamenvoeging Vóór en Na Aanpassing

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Samenvatting

Support