La rimozione di conoscenza nei LLM dovrebbe essere indipendente dalla forma.
LLM Unlearning Should Be Form-Independent
June 9, 2025
Autori: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI
Abstract
Il disimparamento (unlearning) nei Large Language Model (LLM) mira a cancellare o sopprimere conoscenze indesiderate all'interno del modello, offrendo potenzialità per controllare informazioni dannose o private e prevenirne l'uso improprio. Tuttavia, studi recenti evidenziano la sua limitata efficacia in scenari reali, ostacolandone l'adozione pratica. In questo studio, identifichiamo un problema pervasivo alla base di molti fallimenti a valle: l'efficacia dei metodi di disimparamento esistenti dipende fortemente dalla forma dei campioni di addestramento e spesso non riesce a generalizzare a espressioni alternative della stessa conoscenza. Formalizziamo questo problema come Form-Dependent Bias (Bias Dipendente dalla Forma) e ne investigiamo sistematicamente i modelli di manifestazione specifici in vari task a valle. Per quantificarne la diffusione e supportare ricerche future, introduciamo ORT, un nuovo benchmark progettato per valutare la robustezza dei metodi di disimparamento rispetto alle variazioni nell'espressione della conoscenza. I risultati rivelano che il Form-Dependent Bias è sia diffuso che grave tra le tecniche attuali.
Sosteniamo che il disimparamento nei LLM dovrebbe essere indipendente dalla forma per affrontare le infinite varianti di task a valle incontrate in scenari reali critici per la sicurezza. Verso questo obiettivo, introduciamo Rank-one Concept Redirection (ROCR), un nuovo metodo senza addestramento, come una soluzione promettente. ROCR esegue il disimparamento mirando agli invarianti nei task a valle, in particolare ai concetti pericolosi attivati. È in grado di modificare i parametri del modello in pochi secondi per reindirizzare la percezione del modello di un specifico concetto target di disimparamento verso un altro concetto innocuo. Esperimenti estensivi dimostrano che ROCR migliora significativamente l'efficacia del disimparamento rispetto ai metodi tradizionali, generando output altamente naturali.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable
knowledge within the model, offering promise for controlling harmful or private
information to prevent misuse. However, recent studies highlight its limited
efficacy in real-world scenarios, hindering practical adoption. In this study,
we identify a pervasive issue underlying many downstream failures: the
effectiveness of existing unlearning methods heavily depends on the form of
training samples and frequently fails to generalize to alternate expressions of
the same knowledge. We formally characterize this problem as Form-Dependent
Bias and systematically investigate its specific manifestation patterns across
various downstream tasks. To quantify its prevalence and support future
research, we introduce ORT, a novel benchmark designed to evaluate the
robustness of unlearning methods against variations in knowledge expression.
Results reveal that Form-Dependent Bias is both widespread and severe among
current techniques.
We argue that LLM unlearning should be form-independent to address the
endless forms of downstream tasks encountered in real-world security-critical
scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR),
a novel training-free method, as a promising solution path. ROCR performs
unlearning by targeting the invariants in downstream tasks, specifically the
activated dangerous concepts. It is capable of modifying model parameters
within seconds to redirect the model's perception of a specific unlearning
target concept to another harmless concept. Extensive experiments demonstrate
that ROCR significantly improves unlearning effectiveness compared to
traditional methods while generating highly natural outputs.