ChatPaper.aiChatPaper

LookAhead Tuning: Modelos de Linguagem Mais Seguros por meio de Pré-visualizações Parciais de Respostas

LookAhead Tuning: Safer Language Models via Partial Answer Previews

March 24, 2025
Autores: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
cs.AI

Resumo

O fine-tuning permite que grandes modelos de linguagem (LLMs) se adaptem a domínios específicos, mas frequentemente compromete o alinhamento de segurança previamente estabelecido. Para mitigar a degradação da segurança do modelo durante o fine-tuning, introduzimos o LookAhead Tuning, que compreende dois métodos simples, de baixo recurso e eficazes, baseados em dados, que modificam os dados de treinamento ao pré-visualizar prefixos parciais de respostas. Ambos os métodos visam preservar os mecanismos de segurança inerentes ao modelo, minimizando perturbações nas distribuições iniciais de tokens. Experimentos abrangentes demonstram que o LookAhead Tuning mantém efetivamente a segurança do modelo sem sacrificar o desempenho robusto em tarefas subsequentes. Nossos resultados posicionam o LookAhead Tuning como uma solução confiável e eficiente para a adaptação segura e eficaz de LLMs. O código está disponível em https://github.com/zjunlp/LookAheadTuning.
English
Fine-tuning enables large language models (LLMs) to adapt to specific domains, but often undermines their previously established safety alignment. To mitigate the degradation of model safety during fine-tuning, we introduce LookAhead Tuning, which comprises two simple, low-resource, and effective data-driven methods that modify training data by previewing partial answer prefixes. Both methods aim to preserve the model's inherent safety mechanisms by minimizing perturbations to initial token distributions. Comprehensive experiments demonstrate that LookAhead Tuning effectively maintains model safety without sacrificing robust performance on downstream tasks. Our findings position LookAhead Tuning as a reliable and efficient solution for the safe and effective adaptation of LLMs. Code is released at https://github.com/zjunlp/LookAheadTuning.

Summary

AI-Generated Summary

PDF53March 26, 2025