ChatPaper.aiChatPaper

Réglage LookAhead : Des modèles de langage plus sûrs grâce à des aperçus partiels de réponses

LookAhead Tuning: Safer Language Models via Partial Answer Previews

March 24, 2025
Auteurs: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
cs.AI

Résumé

Le fine-tuning permet aux grands modèles de langage (LLMs) de s'adapter à des domaines spécifiques, mais compromet souvent leur alignement de sécurité préalablement établi. Pour atténuer la dégradation de la sécurité du modèle lors du fine-tuning, nous introduisons LookAhead Tuning, qui comprend deux méthodes simples, peu coûteuses en ressources et efficaces, basées sur les données, modifiant les données d'entraînement en prévisualisant des préfixes partiels de réponses. Les deux méthodes visent à préserver les mécanismes de sécurité inhérents au modèle en minimisant les perturbations des distributions initiales de tokens. Des expériences approfondies démontrent que LookAhead Tuning maintient efficacement la sécurité du modèle sans sacrifier les performances robustes sur les tâches en aval. Nos résultats positionnent LookAhead Tuning comme une solution fiable et efficace pour l'adaptation sûre et performante des LLMs. Le code est disponible à l'adresse suivante : https://github.com/zjunlp/LookAheadTuning.
English
Fine-tuning enables large language models (LLMs) to adapt to specific domains, but often undermines their previously established safety alignment. To mitigate the degradation of model safety during fine-tuning, we introduce LookAhead Tuning, which comprises two simple, low-resource, and effective data-driven methods that modify training data by previewing partial answer prefixes. Both methods aim to preserve the model's inherent safety mechanisms by minimizing perturbations to initial token distributions. Comprehensive experiments demonstrate that LookAhead Tuning effectively maintains model safety without sacrificing robust performance on downstream tasks. Our findings position LookAhead Tuning as a reliable and efficient solution for the safe and effective adaptation of LLMs. Code is released at https://github.com/zjunlp/LookAheadTuning.

Summary

AI-Generated Summary

PDF53March 26, 2025