ChatPaper.aiChatPaper

LookAhead Tuning: Более безопасные языковые модели через предварительный просмотр частичных ответов

LookAhead Tuning: Safer Language Models via Partial Answer Previews

March 24, 2025
Авторы: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
cs.AI

Аннотация

Тонкая настройка позволяет крупным языковым моделям (LLM) адаптироваться к конкретным областям, но часто подрывает их ранее установленную безопасную согласованность. Чтобы смягчить ухудшение безопасности модели в процессе тонкой настройки, мы представляем LookAhead Tuning — подход, включающий два простых, ресурсоэффективных и действенных метода, основанных на данных, которые модифицируют обучающие данные путем предварительного просмотра частичных префиксов ответов. Оба метода направлены на сохранение встроенных механизмов безопасности модели за счет минимизации изменений в начальных распределениях токенов. Комплексные эксперименты демонстрируют, что LookAhead Tuning эффективно поддерживает безопасность модели без ущерба для её производительности на целевых задачах. Наши результаты позиционируют LookAhead Tuning как надежное и эффективное решение для безопасной и результативной адаптации LLM. Код доступен по адресу https://github.com/zjunlp/LookAheadTuning.
English
Fine-tuning enables large language models (LLMs) to adapt to specific domains, but often undermines their previously established safety alignment. To mitigate the degradation of model safety during fine-tuning, we introduce LookAhead Tuning, which comprises two simple, low-resource, and effective data-driven methods that modify training data by previewing partial answer prefixes. Both methods aim to preserve the model's inherent safety mechanisms by minimizing perturbations to initial token distributions. Comprehensive experiments demonstrate that LookAhead Tuning effectively maintains model safety without sacrificing robust performance on downstream tasks. Our findings position LookAhead Tuning as a reliable and efficient solution for the safe and effective adaptation of LLMs. Code is released at https://github.com/zjunlp/LookAheadTuning.

Summary

AI-Generated Summary

PDF53March 26, 2025