Avaliação Intrínseca do Desaprendizado Usando Traços de Conhecimento Paramétricos
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
June 17, 2024
Autores: Yihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva
cs.AI
Resumo
A tarefa de "desaprendizagem" de certos conceitos em grandes modelos de linguagem (LLMs, na sigla em inglês) tem atraído grande atenção recentemente, devido à sua importância para mitigar comportamentos indesejáveis dos modelos, como a geração de informações prejudiciais, privadas ou incorretas. Os protocolos atuais para avaliar métodos de desaprendizagem dependem amplamente de testes comportamentais, sem monitorar a presença do conhecimento desaprendido nos parâmetros do modelo. Esse conhecimento residual pode ser explorado de forma adversária para recuperar as informações apagadas após a desaprendizagem. Argumentamos que a desaprendizagem também deve ser avaliada internamente, considerando as mudanças nos traços de conhecimento paramétrico dos conceitos desaprendidos. Para isso, propomos uma metodologia geral para elicitar direções no espaço de parâmetros (denominadas "vetores de conceito") que codificam conceitos concretos, e construímos o ConceptVectors, um conjunto de dados de referência contendo centenas de conceitos comuns e seus traços de conhecimento paramétrico em dois LLMs de código aberto. A avaliação no ConceptVectors mostra que os métodos de desaprendizagem existentes têm impacto mínimo nos vetores de conceito, enquanto a ablação direta desses vetores remove claramente o conhecimento associado dos LLMs e reduz significativamente sua suscetibilidade à manipulação adversária. Nossos resultados destacam limitações nas avaliações de desaprendizagem baseadas em comportamento e apelam para que trabalhos futuros incluam avaliações baseadas em parâmetros. Para apoiar isso, disponibilizamos nosso código e conjunto de referência em https://github.com/yihuaihong/ConceptVectors.
English
The task of "unlearning" certain concepts in large language models (LLMs) has
attracted immense attention recently, due to its importance for mitigating
undesirable model behaviours, such as the generation of harmful, private, or
incorrect information. Current protocols to evaluate unlearning methods largely
rely on behavioral tests, without monitoring the presence of unlearned
knowledge within the model's parameters. This residual knowledge can be
adversarially exploited to recover the erased information post-unlearning. We
argue that unlearning should also be evaluated internally, by considering
changes in the parametric knowledge traces of the unlearned concepts. To this
end, we propose a general methodology for eliciting directions in the parameter
space (termed "concept vectors") that encode concrete concepts, and construct
ConceptVectors, a benchmark dataset containing hundreds of common concepts and
their parametric knowledge traces within two open-source LLMs. Evaluation on
ConceptVectors shows that existing unlearning methods minimally impact concept
vectors, while directly ablating these vectors demonstrably removes the
associated knowledge from the LLMs and significantly reduces their
susceptibility to adversarial manipulation. Our results highlight limitations
in behavioral-based unlearning evaluations and call for future work to include
parametric-based evaluations. To support this, we release our code and
benchmark at https://github.com/yihuaihong/ConceptVectors.