Protéger les LLMs affinés grâce à la fusion de modèles avant et après l'ajustement.
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
December 27, 2024
Auteurs: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
cs.AI
Résumé
L'ajustement fin des grands modèles de langage (GML) pour des tâches ultérieures est une approche largement adoptée, mais elle conduit souvent à une dégradation de la sécurité des GML alignés sur la sécurité. Actuellement, de nombreuses solutions abordent ce problème en incorporant des données de sécurité supplémentaires, ce qui peut être impraticable dans de nombreux cas. Dans cet article, nous abordons la question suivante : Comment pouvons-nous améliorer les performances des tâches ultérieures tout en préservant la sécurité dans les GML sans recourir à des données de sécurité supplémentaires ? Nous proposons une méthode simple et efficace qui maintient la sécurité inhérente des GML tout en améliorant leurs performances pour les tâches ultérieures : fusionner les poids des modèles alignés sur la sécurité pré- et post-ajustement fin. Les résultats expérimentaux sur diverses tâches ultérieures, modèles et méthodes de fusion démontrent que cette approche atténue efficacement la dégradation de la sécurité tout en améliorant les performances des tâches ultérieures, offrant ainsi une solution pratique pour l'adaptation des GML alignés sur la sécurité.
English
Fine-tuning large language models (LLMs) for downstream tasks is a widely
adopted approach, but it often leads to safety degradation in safety-aligned
LLMs. Currently, many solutions address this issue by incorporating additional
safety data, which can be impractical in many cases. In this paper, we address
the question: How can we improve downstream task performance while preserving
safety in LLMs without relying on additional safety data? We propose a simple
and effective method that maintains the inherent safety of LLMs while enhancing
their downstream task performance: merging the weights of pre- and
post-fine-tuned safety-aligned models. Experimental results across various
downstream tasks, models, and merging methods demonstrate that this approach
effectively mitigates safety degradation while improving downstream task
performance, offering a practical solution for adapting safety-aligned LLMs.Summary
AI-Generated Summary