La rimozione di conoscenza nei LLM dovrebbe essere indipendente dalla forma.

Abstract

Il disimparamento (unlearning) nei Large Language Model (LLM) mira a cancellare o sopprimere conoscenze indesiderate all'interno del modello, offrendo potenzialità per controllare informazioni dannose o private e prevenirne l'uso improprio. Tuttavia, studi recenti evidenziano la sua limitata efficacia in scenari reali, ostacolandone l'adozione pratica. In questo studio, identifichiamo un problema pervasivo alla base di molti fallimenti a valle: l'efficacia dei metodi di disimparamento esistenti dipende fortemente dalla forma dei campioni di addestramento e spesso non riesce a generalizzare a espressioni alternative della stessa conoscenza. Formalizziamo questo problema come Form-Dependent Bias (Bias Dipendente dalla Forma) e ne investigiamo sistematicamente i modelli di manifestazione specifici in vari task a valle. Per quantificarne la diffusione e supportare ricerche future, introduciamo ORT, un nuovo benchmark progettato per valutare la robustezza dei metodi di disimparamento rispetto alle variazioni nell'espressione della conoscenza. I risultati rivelano che il Form-Dependent Bias è sia diffuso che grave tra le tecniche attuali. Sosteniamo che il disimparamento nei LLM dovrebbe essere indipendente dalla forma per affrontare le infinite varianti di task a valle incontrate in scenari reali critici per la sicurezza. Verso questo obiettivo, introduciamo Rank-one Concept Redirection (ROCR), un nuovo metodo senza addestramento, come una soluzione promettente. ROCR esegue il disimparamento mirando agli invarianti nei task a valle, in particolare ai concetti pericolosi attivati. È in grado di modificare i parametri del modello in pochi secondi per reindirizzare la percezione del modello di un specifico concetto target di disimparamento verso un altro concetto innocuo. Esperimenti estensivi dimostrano che ROCR migliora significativamente l'efficacia del disimparamento rispetto ai metodi tradizionali, generando output altamente naturali.

English

Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model's perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.

La rimozione di conoscenza nei LLM dovrebbe essere indipendente dalla forma.

LLM Unlearning Should Be Form-Independent

Abstract

Support