Bescherm Fijnafgestelde Taalmodelen Door Modelsamenvoeging Vóór en Na Aanpassing
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
December 27, 2024
Auteurs: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
cs.AI
Samenvatting
Het verfijnen van grote taalmodellen (LLM's) voor downstream taken is een veelgebruikte aanpak, maar het leidt vaak tot veiligheidsdegradatie bij veiligheidsgerichte LLM's. Momenteel pakken veel oplossingen dit probleem aan door extra veiligheidsgegevens op te nemen, wat in veel gevallen onpraktisch kan zijn. In dit artikel behandelen we de vraag: Hoe kunnen we de prestaties van downstream taken verbeteren terwijl we de veiligheid in LLM's behouden zonder te vertrouwen op extra veiligheidsgegevens? We stellen een eenvoudige en effectieve methode voor die de inherente veiligheid van LLM's behoudt terwijl hun prestaties bij downstream taken worden verbeterd: het samenvoegen van de gewichten van voor- en na-verfijnde veiligheidsgerichte modellen. Experimentele resultaten over verschillende downstream taken, modellen en samenvoegmethoden tonen aan dat deze aanpak veiligheidsdegradatie effectief tegengaat en tegelijkertijd de prestaties bij downstream taken verbetert, waardoor een praktische oplossing wordt geboden voor het aanpassen van veiligheidsgerichte LLM's.
English
Fine-tuning large language models (LLMs) for downstream tasks is a widely
adopted approach, but it often leads to safety degradation in safety-aligned
LLMs. Currently, many solutions address this issue by incorporating additional
safety data, which can be impractical in many cases. In this paper, we address
the question: How can we improve downstream task performance while preserving
safety in LLMs without relying on additional safety data? We propose a simple
and effective method that maintains the inherent safety of LLMs while enhancing
their downstream task performance: merging the weights of pre- and
post-fine-tuned safety-aligned models. Experimental results across various
downstream tasks, models, and merging methods demonstrate that this approach
effectively mitigates safety degradation while improving downstream task
performance, offering a practical solution for adapting safety-aligned LLMs.