Valutazione Intrinseca del Disapprendimento Utilizzando Tracce di Conoscenza Parametriche

Abstract

Il compito di "dimenticare" determinati concetti nei grandi modelli linguistici (LLM) ha recentemente attirato un'attenzione significativa, a causa della sua importanza nel mitigare comportamenti indesiderati dei modelli, come la generazione di informazioni dannose, private o errate. I protocolli attuali per valutare i metodi di dimenticanza si basano principalmente su test comportamentali, senza monitorare la presenza di conoscenze dimenticate all'interno dei parametri del modello. Questa conoscenza residua può essere sfruttata in modo avversario per recuperare le informazioni cancellate dopo il processo di dimenticanza. Sosteniamo che la dimenticanza dovrebbe essere valutata anche internamente, considerando i cambiamenti nelle tracce di conoscenza parametrica dei concetti dimenticati. A tal fine, proponiamo una metodologia generale per individuare direzioni nello spazio dei parametri (denominate "vettori concettuali") che codificano concetti specifici, e costruiamo ConceptVectors, un dataset di benchmark contenente centinaia di concetti comuni e le loro tracce di conoscenza parametrica all'interno di due LLM open-source. La valutazione su ConceptVectors mostra che i metodi di dimenticanza esistenti hanno un impatto minimo sui vettori concettuali, mentre l'ablazione diretta di questi vettori rimuove in modo dimostrabile la conoscenza associata dagli LLM e riduce significativamente la loro suscettibilità alla manipolazione avversaria. I nostri risultati evidenziano le limitazioni delle valutazioni di dimenticanza basate sul comportamento e sollecitano futuri lavori a includere valutazioni basate sui parametri. Per supportare questo obiettivo, rilasciamo il nostro codice e il benchmark all'indirizzo https://github.com/yihuaihong/ConceptVectors.

English

The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance for mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general methodology for eliciting directions in the parameter space (termed "concept vectors") that encode concrete concepts, and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors, while directly ablating these vectors demonstrably removes the associated knowledge from the LLMs and significantly reduces their susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parametric-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.

Valutazione Intrinseca del Disapprendimento Utilizzando Tracce di Conoscenza Parametriche

Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

Abstract

Support