ChatPaper.aiChatPaper

LookAhead Tuning: Modelos de Lenguaje más Seguros mediante Previsualizaciones Parciales de Respuestas

LookAhead Tuning: Safer Language Models via Partial Answer Previews

March 24, 2025
Autores: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
cs.AI

Resumen

El ajuste fino permite que los modelos de lenguaje de gran escala (LLMs) se adapten a dominios específicos, pero a menudo socava su alineación de seguridad previamente establecida. Para mitigar la degradación de la seguridad del modelo durante el ajuste fino, presentamos LookAhead Tuning, que comprende dos métodos simples, de bajo costo y efectivos basados en datos que modifican los datos de entrenamiento mediante la previsualización de prefijos parciales de respuestas. Ambos métodos buscan preservar los mecanismos de seguridad inherentes del modelo minimizando las perturbaciones en las distribuciones iniciales de tokens. Experimentos exhaustivos demuestran que LookAhead Tuning mantiene eficazmente la seguridad del modelo sin sacrificar el rendimiento robusto en tareas posteriores. Nuestros hallazgos posicionan a LookAhead Tuning como una solución confiable y eficiente para la adaptación segura y efectiva de los LLMs. El código está disponible en https://github.com/zjunlp/LookAheadTuning.
English
Fine-tuning enables large language models (LLMs) to adapt to specific domains, but often undermines their previously established safety alignment. To mitigate the degradation of model safety during fine-tuning, we introduce LookAhead Tuning, which comprises two simple, low-resource, and effective data-driven methods that modify training data by previewing partial answer prefixes. Both methods aim to preserve the model's inherent safety mechanisms by minimizing perturbations to initial token distributions. Comprehensive experiments demonstrate that LookAhead Tuning effectively maintains model safety without sacrificing robust performance on downstream tasks. Our findings position LookAhead Tuning as a reliable and efficient solution for the safe and effective adaptation of LLMs. Code is released at https://github.com/zjunlp/LookAheadTuning.

Summary

AI-Generated Summary

PDF53March 26, 2025