ChatPaper.aiChatPaper

LookAhead Tuning: Veiligere Taalmodellen via Gedeeltelijke Antwoordvoorbeelden

LookAhead Tuning: Safer Language Models via Partial Answer Previews

March 24, 2025
Auteurs: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
cs.AI

Samenvatting

Fine-tuning maakt het mogelijk voor grote taalmodellen (LLMs) om zich aan te passen aan specifieke domeinen, maar ondermijnt vaak hun eerder vastgestelde veiligheidsuitlijning. Om de achteruitgang van modelveiligheid tijdens fine-tuning te beperken, introduceren we LookAhead Tuning, dat bestaat uit twee eenvoudige, resourcezuinige en effectieve data-gedreven methoden die trainingsdata aanpassen door gedeeltelijke antwoordvoorvoegsels te bekijken. Beide methoden zijn gericht op het behoud van de inherente veiligheidsmechanismen van het model door verstoringen van de initiële tokenverdelingen te minimaliseren. Uitgebreide experimenten tonen aan dat LookAhead Tuning effectief de modelveiligheid behoudt zonder in te leveren op robuuste prestaties bij downstream taken. Onze bevindingen positioneren LookAhead Tuning als een betrouwbare en efficiënte oplossing voor de veilige en effectieve aanpassing van LLMs. Code is vrijgegeven op https://github.com/zjunlp/LookAheadTuning.
English
Fine-tuning enables large language models (LLMs) to adapt to specific domains, but often undermines their previously established safety alignment. To mitigate the degradation of model safety during fine-tuning, we introduce LookAhead Tuning, which comprises two simple, low-resource, and effective data-driven methods that modify training data by previewing partial answer prefixes. Both methods aim to preserve the model's inherent safety mechanisms by minimizing perturbations to initial token distributions. Comprehensive experiments demonstrate that LookAhead Tuning effectively maintains model safety without sacrificing robust performance on downstream tasks. Our findings position LookAhead Tuning as a reliable and efficient solution for the safe and effective adaptation of LLMs. Code is released at https://github.com/zjunlp/LookAheadTuning.

Summary

AI-Generated Summary

PDF53March 26, 2025