Intrinsische Bewertung des Verlernens unter Verwendung parametrischer Wissensspuren.
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces
June 17, 2024
Autoren: Yihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva
cs.AI
Zusammenfassung
Die Aufgabe des "Vergessens" bestimmter Konzepte in großen Sprachmodellen (LLMs) hat kürzlich immense Aufmerksamkeit erregt, aufgrund ihrer Bedeutung zur Minderung unerwünschter Verhaltensweisen der Modelle, wie der Erzeugung schädlicher, privater oder falscher Informationen. Aktuelle Protokolle zur Bewertung von Vergessensmethoden stützen sich weitgehend auf Verhaltenstests, ohne die Präsenz vergessenen Wissens innerhalb der Parameter des Modells zu überwachen. Dieses Restwissen kann feindlich ausgenutzt werden, um die gelöschten Informationen nach dem Vergessen wiederherzustellen. Wir argumentieren, dass das Vergessen auch intern bewertet werden sollte, indem Veränderungen in den parametrischen Wissensspuren der vergessenen Konzepte berücksichtigt werden. Zu diesem Zweck schlagen wir eine allgemeine Methodik zur Ermittlung von Richtungen im Parameterraum vor (bezeichnet als "Konzeptvektoren"), die konkrete Konzepte codieren, und erstellen ConceptVectors, einen Benchmark-Datensatz mit Hunderten von gängigen Konzepten und ihren parametrischen Wissensspuren in zwei Open-Source-LLMs. Die Evaluation anhand von ConceptVectors zeigt, dass bestehende Vergessensmethoden Konzeptvektoren minimal beeinflussen, während das direkte Entfernen dieser Vektoren nachweislich das zugehörige Wissen aus den LLMs entfernt und ihre Anfälligkeit für feindliche Manipulationen signifikant reduziert. Unsere Ergebnisse verdeutlichen die Grenzen von verhaltensbasierten Vergessensbewertungen und fordern zukünftige Arbeiten auf, parametrische Bewertungen einzubeziehen. Zur Unterstützung veröffentlichen wir unseren Code und Benchmark unter https://github.com/yihuaihong/ConceptVectors.
English
The task of "unlearning" certain concepts in large language models (LLMs) has
attracted immense attention recently, due to its importance for mitigating
undesirable model behaviours, such as the generation of harmful, private, or
incorrect information. Current protocols to evaluate unlearning methods largely
rely on behavioral tests, without monitoring the presence of unlearned
knowledge within the model's parameters. This residual knowledge can be
adversarially exploited to recover the erased information post-unlearning. We
argue that unlearning should also be evaluated internally, by considering
changes in the parametric knowledge traces of the unlearned concepts. To this
end, we propose a general methodology for eliciting directions in the parameter
space (termed "concept vectors") that encode concrete concepts, and construct
ConceptVectors, a benchmark dataset containing hundreds of common concepts and
their parametric knowledge traces within two open-source LLMs. Evaluation on
ConceptVectors shows that existing unlearning methods minimally impact concept
vectors, while directly ablating these vectors demonstrably removes the
associated knowledge from the LLMs and significantly reduces their
susceptibility to adversarial manipulation. Our results highlight limitations
in behavioral-based unlearning evaluations and call for future work to include
parametric-based evaluations. To support this, we release our code and
benchmark at https://github.com/yihuaihong/ConceptVectors.Summary
AI-Generated Summary