Evaluación Intrínseca del Desaprendizaje Utilizando Huellas de Conocimiento Paramétricas
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
June 17, 2024
Autores: Yihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva
cs.AI
Resumen
La tarea de "desaprender" ciertos conceptos en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha atraído una atención considerable recientemente, debido a su importancia para mitigar comportamientos no deseados en los modelos, como la generación de información dañina, privada o incorrecta. Los protocolos actuales para evaluar métodos de desaprendizaje se basan principalmente en pruebas conductuales, sin monitorear la presencia del conocimiento desaprendido dentro de los parámetros del modelo. Este conocimiento residual puede ser explotado de manera adversaria para recuperar la información eliminada después del desaprendizaje. Argumentamos que el desaprendizaje también debería evaluarse internamente, considerando los cambios en las huellas de conocimiento paramétrico de los conceptos desaprendidos. Con este fin, proponemos una metodología general para elicitar direcciones en el espacio de parámetros (denominadas "vectores de concepto") que codifican conceptos concretos, y construimos ConceptVectors, un conjunto de datos de referencia que contiene cientos de conceptos comunes y sus huellas de conocimiento paramétrico en dos LLMs de código abierto. La evaluación en ConceptVectors muestra que los métodos de desaprendizaje existentes tienen un impacto mínimo en los vectores de concepto, mientras que la ablación directa de estos vectores elimina demostrablemente el conocimiento asociado de los LLMs y reduce significativamente su susceptibilidad a la manipulación adversaria. Nuestros resultados destacan las limitaciones en las evaluaciones de desaprendizaje basadas en el comportamiento y abogan por que trabajos futuros incluyan evaluaciones basadas en parámetros. Para apoyar esto, publicamos nuestro código y referencia en https://github.com/yihuaihong/ConceptVectors.
English
The task of "unlearning" certain concepts in large language models (LLMs) has
attracted immense attention recently, due to its importance for mitigating
undesirable model behaviours, such as the generation of harmful, private, or
incorrect information. Current protocols to evaluate unlearning methods largely
rely on behavioral tests, without monitoring the presence of unlearned
knowledge within the model's parameters. This residual knowledge can be
adversarially exploited to recover the erased information post-unlearning. We
argue that unlearning should also be evaluated internally, by considering
changes in the parametric knowledge traces of the unlearned concepts. To this
end, we propose a general methodology for eliciting directions in the parameter
space (termed "concept vectors") that encode concrete concepts, and construct
ConceptVectors, a benchmark dataset containing hundreds of common concepts and
their parametric knowledge traces within two open-source LLMs. Evaluation on
ConceptVectors shows that existing unlearning methods minimally impact concept
vectors, while directly ablating these vectors demonstrably removes the
associated knowledge from the LLMs and significantly reduces their
susceptibility to adversarial manipulation. Our results highlight limitations
in behavioral-based unlearning evaluations and call for future work to include
parametric-based evaluations. To support this, we release our code and
benchmark at https://github.com/yihuaihong/ConceptVectors.Summary
AI-Generated Summary