Veiligheid in één klap: Gefinetunde LLM's patchen met één enkel voorbeeld
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
January 5, 2026
Auteurs: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI
Samenvatting
Het finetunen van veiligheidsafgestemde grote taalmodellen (LLM's) kan hun veiligheidsafstemming aanzienlijk ondermijnen. Eerdere methoden vereisen veel veiligheidsvoorbeelden of kalibratiesets, wat niet alleen leidt tot aanzienlijke rekenkosten tijdens heraanpassing, maar ook tot een merkbare verslechtering van de modelprestaties. In tegenstelling tot deze veronderstelling tonen wij aan dat de veiligheidsafstemming volledig kan worden hersteld met slechts één enkel veiligheidsvoorbeeld, zonder verlies van functionaliteit en tegen minimale kosten. Opmerkelijk genoeg is dit herstel effectief, ongeacht het aantal schadelijke voorbeelden dat bij het finetunen wordt gebruikt of de grootte van het onderliggende model, en wordt convergentie bereikt binnen slechts enkele epochs. Bovendien onthullen wij de low-rankstructuur van de veiligheidsgradiënt, wat verklaart waarom een dergelijke efficiënte correctie mogelijk is. Wij valideren onze bevindingen met vijf veiligheidsafgestemde LLM's en meerdere datasets, wat de algemene toepasbaarheid van onze aanpak aantoont.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.