Intrinsische Bewertung des Verlernens unter Verwendung parametrischer Wissensspuren.

papers.abstract

Die Aufgabe des "Vergessens" bestimmter Konzepte in großen Sprachmodellen (LLMs) hat kürzlich immense Aufmerksamkeit erregt, aufgrund ihrer Bedeutung zur Minderung unerwünschter Verhaltensweisen der Modelle, wie der Erzeugung schädlicher, privater oder falscher Informationen. Aktuelle Protokolle zur Bewertung von Vergessensmethoden stützen sich weitgehend auf Verhaltenstests, ohne die Präsenz vergessenen Wissens innerhalb der Parameter des Modells zu überwachen. Dieses Restwissen kann feindlich ausgenutzt werden, um die gelöschten Informationen nach dem Vergessen wiederherzustellen. Wir argumentieren, dass das Vergessen auch intern bewertet werden sollte, indem Veränderungen in den parametrischen Wissensspuren der vergessenen Konzepte berücksichtigt werden. Zu diesem Zweck schlagen wir eine allgemeine Methodik zur Ermittlung von Richtungen im Parameterraum vor (bezeichnet als "Konzeptvektoren"), die konkrete Konzepte codieren, und erstellen ConceptVectors, einen Benchmark-Datensatz mit Hunderten von gängigen Konzepten und ihren parametrischen Wissensspuren in zwei Open-Source-LLMs. Die Evaluation anhand von ConceptVectors zeigt, dass bestehende Vergessensmethoden Konzeptvektoren minimal beeinflussen, während das direkte Entfernen dieser Vektoren nachweislich das zugehörige Wissen aus den LLMs entfernt und ihre Anfälligkeit für feindliche Manipulationen signifikant reduziert. Unsere Ergebnisse verdeutlichen die Grenzen von verhaltensbasierten Vergessensbewertungen und fordern zukünftige Arbeiten auf, parametrische Bewertungen einzubeziehen. Zur Unterstützung veröffentlichen wir unseren Code und Benchmark unter https://github.com/yihuaihong/ConceptVectors.

English

The task of "unlearning" certain concepts in large language models (LLMs) has attracted immense attention recently, due to its importance for mitigating undesirable model behaviours, such as the generation of harmful, private, or incorrect information. Current protocols to evaluate unlearning methods largely rely on behavioral tests, without monitoring the presence of unlearned knowledge within the model's parameters. This residual knowledge can be adversarially exploited to recover the erased information post-unlearning. We argue that unlearning should also be evaluated internally, by considering changes in the parametric knowledge traces of the unlearned concepts. To this end, we propose a general methodology for eliciting directions in the parameter space (termed "concept vectors") that encode concrete concepts, and construct ConceptVectors, a benchmark dataset containing hundreds of common concepts and their parametric knowledge traces within two open-source LLMs. Evaluation on ConceptVectors shows that existing unlearning methods minimally impact concept vectors, while directly ablating these vectors demonstrably removes the associated knowledge from the LLMs and significantly reduces their susceptibility to adversarial manipulation. Our results highlight limitations in behavioral-based unlearning evaluations and call for future work to include parametric-based evaluations. To support this, we release our code and benchmark at https://github.com/yihuaihong/ConceptVectors.

Intrinsische Bewertung des Verlernens unter Verwendung parametrischer Wissensspuren.

Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

papers.abstract

Support