RepSelect: Desaprendizaje robusto de LLMs mediante selectividad de representación

Resumen

Hacer que los modelos de lenguaje de gran escala (LLMs) olviden profundamente conocimientos y valores específicos sin sacrificar capacidades generales sigue siendo un desafío central en el desaprendizaje. Sin embargo, los métodos actuales se revierten fácilmente mediante ajuste fino o instrucción con pocos ejemplos, lo que sugiere que su olvido es solo superficial. Identificamos la causa raíz. Los métodos existentes se dirigen a representaciones compartidas tanto con el conjunto de retención como con el subespacio recuperado por un atacante de ajuste fino, lo que hace que el desaprendizaje sea disruptivo para las capacidades generales y fácil de revertir. Proponemos RepSelect (Selectividad de Representaciones), que aísla representaciones específicas del conjunto de olvido colapsando los componentes principales superiores de los gradientes de peso antes de cada actualización, dejando intactas las capacidades generales y limitando lo que el ajuste fino puede recuperar. Evaluamos en dos categorías de olvido (conocimiento biopeligroso y tendencias abusivas) y cuatro familias de modelos que abarcan arquitecturas densas y de mezcla de expertos (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). En comparación con cinco líneas base populares (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect logra una reducción 4–50 veces mayor en la precisión de respuestas tras el reaprendizaje que la línea base más fuerte, y es casi perfectamente robusto ante ataques de instrucción con pocos ejemplos. Por lo tanto, apuntar a representaciones selectivas constituye un paso importante hacia un olvido profundo y robusto en LLMs.

English

Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tuning or few-shot prompting, suggesting their forgetting is only shallow. We identify the root cause. Existing methods target representations shared with both the retain set and the subspace recovered by a fine-tuning attacker, making unlearning both disruptive to general capabilities and easy to reverse. We propose RepSelect (Representation Selectivity), isolates forget-set-specific representations by collapsing top principal components of weight gradients before each update, leaving general capabilities intact while limiting what fine-tuning can recover. We evaluate across two forget categories, biohazardous knowledge and abusive tendencies, and four model families spanning dense and Mixture-of-Experts architectures (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Compared to five popular baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect achieves a 4-50x larger reduction in post-relearning answer accuracy than the strongest baseline, and is near-perfectly robust to few-shot prompting attacks. Targeting selective representations is thus an important step towards deep and robust LLM forgetting.