LLM-Verlernen sollte formunabhängig sein.
LLM Unlearning Should Be Form-Independent
June 9, 2025
Autoren: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI
Zusammenfassung
Das Verlernen (Unlearning) bei großen Sprachmodellen (Large Language Models, LLMs) zielt darauf ab, unerwünschtes Wissen innerhalb des Modells zu löschen oder zu unterdrücken, was Potenzial bietet, schädliche oder private Informationen zu kontrollieren, um Missbrauch zu verhindern. Jüngste Studien zeigen jedoch, dass die Wirksamkeit in realen Anwendungen begrenzt ist, was die praktische Nutzung behindert. In dieser Studie identifizieren wir ein weit verbreitetes Problem, das vielen nachgelagerten Fehlern zugrunde liegt: Die Effektivität bestehender Verlernmethoden hängt stark von der Form der Trainingsdaten ab und scheitert häufig daran, auf alternative Ausdrücke desselben Wissens zu verallgemeinern. Wir charakterisieren dieses Problem formal als Formabhängige Verzerrung (Form-Dependent Bias) und untersuchen systematisch seine spezifischen Manifestationsmuster in verschiedenen nachgelagerten Aufgaben. Um seine Verbreitung zu quantifizieren und zukünftige Forschung zu unterstützen, führen wir ORT ein, einen neuartigen Benchmark, der die Robustheit von Verlernmethoden gegenüber Variationen in der Wissensdarstellung bewertet. Die Ergebnisse zeigen, dass Formabhängige Verzerrung unter den aktuellen Techniken weit verbreitet und schwerwiegend ist.
Wir argumentieren, dass das Verlernen bei LLMs formunabhängig sein sollte, um die unendlichen Formen nachgelagerter Aufgaben in realen sicherheitskritischen Szenarien zu bewältigen. In Richtung dieses Ziels stellen wir Rank-one Concept Redirection (ROCR) vor, eine neuartige trainingsfreie Methode, die einen vielversprechenden Lösungsansatz darstellt. ROCR führt das Verlernen durch, indem es die Invarianten in nachgelagerten Aufgaben anvisiert, insbesondere die aktivierten gefährlichen Konzepte. Es ist in der Lage, Modellparameter innerhalb von Sekunden zu modifizieren, um die Wahrnehmung des Modells von einem spezifischen Verlernzielkonzept auf ein harmloses Konzept umzuleiten. Umfangreiche Experimente zeigen, dass ROCR die Effektivität des Verlernens im Vergleich zu traditionellen Methoden signifikant verbessert und dabei hochgradig natürliche Ausgaben erzeugt.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable
knowledge within the model, offering promise for controlling harmful or private
information to prevent misuse. However, recent studies highlight its limited
efficacy in real-world scenarios, hindering practical adoption. In this study,
we identify a pervasive issue underlying many downstream failures: the
effectiveness of existing unlearning methods heavily depends on the form of
training samples and frequently fails to generalize to alternate expressions of
the same knowledge. We formally characterize this problem as Form-Dependent
Bias and systematically investigate its specific manifestation patterns across
various downstream tasks. To quantify its prevalence and support future
research, we introduce ORT, a novel benchmark designed to evaluate the
robustness of unlearning methods against variations in knowledge expression.
Results reveal that Form-Dependent Bias is both widespread and severe among
current techniques.
We argue that LLM unlearning should be form-independent to address the
endless forms of downstream tasks encountered in real-world security-critical
scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR),
a novel training-free method, as a promising solution path. ROCR performs
unlearning by targeting the invariants in downstream tasks, specifically the
activated dangerous concepts. It is capable of modifying model parameters
within seconds to redirect the model's perception of a specific unlearning
target concept to another harmless concept. Extensive experiments demonstrate
that ROCR significantly improves unlearning effectiveness compared to
traditional methods while generating highly natural outputs.