RepSelect: Robuust LLM-verleren via representatieselectiviteit

Samenvatting

Het diepgaand laten verleren van specifieke kennis en waarden door grote taalmodellen (LLM's) zonder afbreuk te doen aan algemene capaciteiten blijft een centrale uitdaging in het ontleren. Huidige methoden kunnen echter eenvoudig worden teruggedraaid door middel van fine-tuning of few-shot prompting, wat erop wijst dat hun vergeten slechts oppervlakkig is. Wij identificeren de hoofdoorzaak. Bestaande methoden richten zich op representaties die worden gedeeld met zowel de te behouden set als de deelruimte die door een fine-tuning-aanvaller wordt hersteld, waardoor ontleren zowel schadelijk is voor algemene capaciteiten als gemakkelijk omkeerbaar. Wij stellen RepSelect (Representation Selectivity) voor, dat specifieke representaties van de te vergeten set isoleert door de top-hoofdcomponenten van gewichtsgradiënten in te storten vóór elke update, waardoor algemene capaciteiten intact blijven en wordt beperkt wat fine-tuning kan herstellen. We evalueren over twee vergeetcategorieën (biologisch gevaarlijke kennis en beledigende neigingen) en vier modelfamilies die variëren van dichte tot Mixture-of-Experts-architecturen (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Vergeleken met vijf populaire baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL) behaalt RepSelect een 4 tot 50 keer grotere reductie in antwoordnauwkeurigheid na herleren dan de sterkste baseline, en is het vrijwel perfect robuust tegen few-shot-prompting-aanvallen. Het richten op selectieve representaties is dus een belangrijke stap in de richting van diep en robuust ontleren van LLM's.

English

Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tuning or few-shot prompting, suggesting their forgetting is only shallow. We identify the root cause. Existing methods target representations shared with both the retain set and the subspace recovered by a fine-tuning attacker, making unlearning both disruptive to general capabilities and easy to reverse. We propose RepSelect (Representation Selectivity), isolates forget-set-specific representations by collapsing top principal components of weight gradients before each update, leaving general capabilities intact while limiting what fine-tuning can recover. We evaluate across two forget categories, biohazardous knowledge and abusive tendencies, and four model families spanning dense and Mixture-of-Experts architectures (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Compared to five popular baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect achieves a 4-50x larger reduction in post-relearning answer accuracy than the strongest baseline, and is near-perfectly robust to few-shot prompting attacks. Targeting selective representations is thus an important step towards deep and robust LLM forgetting.