RepSelect: Robustes LLM-Entlernen durch Repräsentationsselektivität

Zusammenfassung

Große Sprachmodelle (LLMs) gezielt bestimmtes Wissen und Werte vergessen zu lassen, ohne ihre allgemeinen Fähigkeiten zu beeinträchtigen, bleibt eine zentrale Herausforderung beim Unlearning. Aktuelle Methoden lassen sich jedoch leicht durch Feinabstimmung oder Few-Shot-Prompting umkehren, was darauf hindeutet, dass ihr Vergessen nur oberflächlich ist. Wir identifizieren die Ursache: Bestehende Verfahren zielen auf Repräsentationen ab, die sowohl mit dem beizubehaltenden Datensatz als auch mit dem Unterraum gemeinsam sind, der durch einen Angreifer mittels Feinabstimmung wiederhergestellt werden kann. Dadurch wird das Unlearning sowohl störend für allgemeine Fähigkeiten als auch leicht umkehrbar. Wir schlagen RepSelect (Repräsentationsselektivität) vor, das forget-set-spezifische Repräsentationen isoliert, indem es die Hauptkomponenten der Gewichtsgradienten vor jedem Update zusammenfallen lässt. Dies erhält die allgemeinen Fähigkeiten, während der Umfang dessen, was durch Feinabstimmung wiederherstellbar ist, begrenzt wird. Wir evaluieren über zwei Vergessenskategorien hinweg – biogefährdendes Wissen und missbräuchliche Tendenzen – sowie über vier Modellfamilien, die dichte und Mixture-of-Experts-Architekturen abdecken (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Im Vergleich zu fünf gängigen Basislinien (GradDiff, NPO, SimNPO, RMU, UNDIAL) erreicht RepSelect eine 4- bis 50-fach größere Reduktion der Antwortgenauigkeit nach erneutem Lernen als die stärkste Basislinie und ist nahezu perfekt robust gegenüber Few-Shot-Prompting-Angriffen. Die gezielte Beeinflussung selektiver Repräsentationen ist daher ein wichtiger Schritt in Richtung tiefgreifenden und robusten Vergessens in LLMs.

English

Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tuning or few-shot prompting, suggesting their forgetting is only shallow. We identify the root cause. Existing methods target representations shared with both the retain set and the subspace recovered by a fine-tuning attacker, making unlearning both disruptive to general capabilities and easy to reverse. We propose RepSelect (Representation Selectivity), isolates forget-set-specific representations by collapsing top principal components of weight gradients before each update, leaving general capabilities intact while limiting what fine-tuning can recover. We evaluate across two forget categories, biohazardous knowledge and abusive tendencies, and four model families spanning dense and Mixture-of-Experts architectures (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Compared to five popular baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect achieves a 4-50x larger reduction in post-relearning answer accuracy than the strongest baseline, and is near-perfectly robust to few-shot prompting attacks. Targeting selective representations is thus an important step towards deep and robust LLM forgetting.