Avaliação Intrínseca do Desaprendizado Usando Traços de Conhecimento Paramétricos

Resumo

A tarefa de "desaprendizagem" de certos conceitos em grandes modelos de linguagem (LLMs, na sigla em inglês) tem atraído grande atenção recentemente, devido à sua importância para mitigar comportamentos indesejáveis dos modelos, como a geração de informações prejudiciais, privadas ou incorretas. Os protocolos atuais para avaliar métodos de desaprendizagem dependem amplamente de testes comportamentais, sem monitorar a presença do conhecimento desaprendido nos parâmetros do modelo. Esse conhecimento residual pode ser explorado de forma adversária para recuperar as informações apagadas após a desaprendizagem. Argumentamos que a desaprendizagem também deve ser avaliada internamente, considerando as mudanças nos traços de conhecimento paramétrico dos conceitos desaprendidos. Para isso, propomos uma metodologia geral para elicitar direções no espaço de parâmetros (denominadas "vetores de conceito") que codificam conceitos concretos, e construímos o ConceptVectors, um conjunto de dados de referência contendo centenas de conceitos comuns e seus traços de conhecimento paramétrico em dois LLMs de código aberto. A avaliação no ConceptVectors mostra que os métodos de desaprendizagem existentes têm impacto mínimo nos vetores de conceito, enquanto a ablação direta desses vetores remove claramente o conhecimento associado dos LLMs e reduz significativamente sua suscetibilidade à manipulação adversária. Nossos resultados destacam limitações nas avaliações de desaprendizagem baseadas em comportamento e apelam para que trabalhos futuros incluam avaliações baseadas em parâmetros. Para apoiar isso, disponibilizamos nosso código e conjunto de referência em https://github.com/yihuaihong/ConceptVectors.

English

The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance for mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general methodology for eliciting directions in the parameter space (termed "concept vectors") that encode concrete concepts, and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors, while directly ablating these vectors demonstrably removes the associated knowledge from the LLMs and significantly reduces their susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parametric-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.

Avaliação Intrínseca do Desaprendizado Usando Traços de Conhecimento Paramétricos

Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

Resumo

Support