RepSelect: Desaprendizagem Robusta de LLM via Seletividade de Representação

Resumo

Fazer com que grandes modelos de linguagem (LLMs) esqueçam profundamente conhecimentos e valores específicos sem sacrificar capacidades gerais continua sendo um desafio central no aprendizado por desaprendizagem. No entanto, os métodos atuais são facilmente revertidos por fine-tuning ou few-shot prompting, sugerindo que seu esquecimento é apenas raso. Identificamos a causa raiz. Métodos existentes têm como alvo representações compartilhadas tanto com o conjunto de retenção quanto com o subespaço recuperado por um atacante de fine-tuning, tornando a desaprendizagem disruptiva para capacidades gerais e fácil de reverter. Propomos o RepSelect (Representação Seletiva), que isola representações específicas do conjunto de esquecimento ao colapsar os principais componentes principais dos gradientes de peso antes de cada atualização, deixando as capacidades gerais intactas e limitando o que o fine-tuning pode recuperar. Avaliamos em duas categorias de esquecimento — conhecimento bio-hazardoso e tendências abusivas — e quatro famílias de modelos abrangendo arquiteturas densas e de Mistura de Especialistas (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Comparado a cinco linhas de base populares (GradDiff, NPO, SimNPO, RMU, UNDIAL), o RepSelect alcança uma redução 4 a 50 vezes maior na precisão das respostas pós-reaprendizagem do que a linha de base mais forte, sendo quase perfeitamente robusto a ataques de few-shot prompting. Assim, mirar em representações seletivas é um passo importante rumo a um esquecimento profundo e robusto em LLMs.

English

Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tuning or few-shot prompting, suggesting their forgetting is only shallow. We identify the root cause. Existing methods target representations shared with both the retain set and the subspace recovered by a fine-tuning attacker, making unlearning both disruptive to general capabilities and easy to reverse. We propose RepSelect (Representation Selectivity), isolates forget-set-specific representations by collapsing top principal components of weight gradients before each update, leaving general capabilities intact while limiting what fine-tuning can recover. We evaluate across two forget categories, biohazardous knowledge and abusive tendencies, and four model families spanning dense and Mixture-of-Experts architectures (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Compared to five popular baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect achieves a 4-50x larger reduction in post-relearning answer accuracy than the strongest baseline, and is near-perfectly robust to few-shot prompting attacks. Targeting selective representations is thus an important step towards deep and robust LLM forgetting.