Valutazione Intrinseca del Disapprendimento Utilizzando Tracce di Conoscenza Parametriche
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
June 17, 2024
Autori: Yihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva
cs.AI
Abstract
Il compito di "dimenticare" determinati concetti nei grandi modelli linguistici (LLM) ha recentemente attirato un'attenzione significativa, a causa della sua importanza nel mitigare comportamenti indesiderati dei modelli, come la generazione di informazioni dannose, private o errate. I protocolli attuali per valutare i metodi di dimenticanza si basano principalmente su test comportamentali, senza monitorare la presenza di conoscenze dimenticate all'interno dei parametri del modello. Questa conoscenza residua può essere sfruttata in modo avversario per recuperare le informazioni cancellate dopo il processo di dimenticanza. Sosteniamo che la dimenticanza dovrebbe essere valutata anche internamente, considerando i cambiamenti nelle tracce di conoscenza parametrica dei concetti dimenticati. A tal fine, proponiamo una metodologia generale per individuare direzioni nello spazio dei parametri (denominate "vettori concettuali") che codificano concetti specifici, e costruiamo ConceptVectors, un dataset di benchmark contenente centinaia di concetti comuni e le loro tracce di conoscenza parametrica all'interno di due LLM open-source. La valutazione su ConceptVectors mostra che i metodi di dimenticanza esistenti hanno un impatto minimo sui vettori concettuali, mentre l'ablazione diretta di questi vettori rimuove in modo dimostrabile la conoscenza associata dagli LLM e riduce significativamente la loro suscettibilità alla manipolazione avversaria. I nostri risultati evidenziano le limitazioni delle valutazioni di dimenticanza basate sul comportamento e sollecitano futuri lavori a includere valutazioni basate sui parametri. Per supportare questo obiettivo, rilasciamo il nostro codice e il benchmark all'indirizzo https://github.com/yihuaihong/ConceptVectors.
English
The task of "unlearning" certain concepts in large language models (LLMs) has
attracted immense attention recently, due to its importance for mitigating
undesirable model behaviours, such as the generation of harmful, private, or
incorrect information. Current protocols to evaluate unlearning methods largely
rely on behavioral tests, without monitoring the presence of unlearned
knowledge within the model's parameters. This residual knowledge can be
adversarially exploited to recover the erased information post-unlearning. We
argue that unlearning should also be evaluated internally, by considering
changes in the parametric knowledge traces of the unlearned concepts. To this
end, we propose a general methodology for eliciting directions in the parameter
space (termed "concept vectors") that encode concrete concepts, and construct
ConceptVectors, a benchmark dataset containing hundreds of common concepts and
their parametric knowledge traces within two open-source LLMs. Evaluation on
ConceptVectors shows that existing unlearning methods minimally impact concept
vectors, while directly ablating these vectors demonstrably removes the
associated knowledge from the LLMs and significantly reduces their
susceptibility to adversarial manipulation. Our results highlight limitations
in behavioral-based unlearning evaluations and call for future work to include
parametric-based evaluations. To support this, we release our code and
benchmark at https://github.com/yihuaihong/ConceptVectors.