Evaluación Intrínseca del Desaprendizaje Utilizando Huellas de Conocimiento Paramétricas

Resumen

La tarea de "desaprender" ciertos conceptos en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha atraído una atención considerable recientemente, debido a su importancia para mitigar comportamientos no deseados en los modelos, como la generación de información dañina, privada o incorrecta. Los protocolos actuales para evaluar métodos de desaprendizaje se basan principalmente en pruebas conductuales, sin monitorear la presencia del conocimiento desaprendido dentro de los parámetros del modelo. Este conocimiento residual puede ser explotado de manera adversaria para recuperar la información eliminada después del desaprendizaje. Argumentamos que el desaprendizaje también debería evaluarse internamente, considerando los cambios en las huellas de conocimiento paramétrico de los conceptos desaprendidos. Con este fin, proponemos una metodología general para elicitar direcciones en el espacio de parámetros (denominadas "vectores de concepto") que codifican conceptos concretos, y construimos ConceptVectors, un conjunto de datos de referencia que contiene cientos de conceptos comunes y sus huellas de conocimiento paramétrico en dos LLMs de código abierto. La evaluación en ConceptVectors muestra que los métodos de desaprendizaje existentes tienen un impacto mínimo en los vectores de concepto, mientras que la ablación directa de estos vectores elimina demostrablemente el conocimiento asociado de los LLMs y reduce significativamente su susceptibilidad a la manipulación adversaria. Nuestros resultados destacan las limitaciones en las evaluaciones de desaprendizaje basadas en el comportamiento y abogan por que trabajos futuros incluyan evaluaciones basadas en parámetros. Para apoyar esto, publicamos nuestro código y referencia en https://github.com/yihuaihong/ConceptVectors.

English

The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance for mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general methodology for eliciting directions in the parameter space (termed "concept vectors") that encode concrete concepts, and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors, while directly ablating these vectors demonstrably removes the associated knowledge from the LLMs and significantly reduces their susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parametric-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.

Evaluación Intrínseca del Desaprendizaje Utilizando Huellas de Conocimiento Paramétricas

Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

Resumen

Support