Protéger les LLMs affinés grâce à la fusion de modèles avant et après l'ajustement.

papers.abstract

L'ajustement fin des grands modèles de langage (GML) pour des tâches ultérieures est une approche largement adoptée, mais elle conduit souvent à une dégradation de la sécurité des GML alignés sur la sécurité. Actuellement, de nombreuses solutions abordent ce problème en incorporant des données de sécurité supplémentaires, ce qui peut être impraticable dans de nombreux cas. Dans cet article, nous abordons la question suivante : Comment pouvons-nous améliorer les performances des tâches ultérieures tout en préservant la sécurité dans les GML sans recourir à des données de sécurité supplémentaires ? Nous proposons une méthode simple et efficace qui maintient la sécurité inhérente des GML tout en améliorant leurs performances pour les tâches ultérieures : fusionner les poids des modèles alignés sur la sécurité pré- et post-ajustement fin. Les résultats expérimentaux sur diverses tâches ultérieures, modèles et méthodes de fusion démontrent que cette approche atténue efficacement la dégradation de la sécurité tout en améliorant les performances des tâches ultérieures, offrant ainsi une solution pratique pour l'adaptation des GML alignés sur la sécurité.

English

Fine-tuning large language models (LLMs) for downstream tasks is a widely adopted approach, but it often leads to safety degradation in safety-aligned LLMs. Currently, many solutions address this issue by incorporating additional safety data, which can be impractical in many cases. In this paper, we address the question: How can we improve downstream task performance while preserving safety in LLMs without relying on additional safety data? We propose a simple and effective method that maintains the inherent safety of LLMs while enhancing their downstream task performance: merging the weights of pre- and post-fine-tuned safety-aligned models. Experimental results across various downstream tasks, models, and merging methods demonstrate that this approach effectively mitigates safety degradation while improving downstream task performance, offering a practical solution for adapting safety-aligned LLMs.

Protéger les LLMs affinés grâce à la fusion de modèles avant et après l'ajustement.

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

papers.abstract

Support