Löschen von konzeptuellem Wissen aus Sprachmodellen
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Autoren: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Zusammenfassung
Das Konzept des Konzeptlöschens in Sprachmodellen hat traditionell an einem umfassenden Bewertungsrahmen gefehlt, was zu unvollständigen Bewertungen der Wirksamkeit von Löschmethoden geführt hat. Wir schlagen ein Bewertungsparadigma vor, das auf drei entscheidenden Kriterien basiert: Unschuld (vollständige Wissensentfernung), Nahtlosigkeit (Aufrechterhaltung bedingter flüssiger Generierung) und Spezifität (Erhaltung der Leistung bei nicht verwandten Aufgaben). Unsere Bewertungsmetriken fördern natürlich die Entwicklung von "Erasure of Language Memory" (ELM), einer neuen Methode, die darauf abzielt, alle drei Dimensionen zu berücksichtigen. ELM verwendet gezielte Low-Rank-Updates, um die Ausgabeverteilungen für gelöschte Konzepte zu ändern, während die Gesamtfähigkeiten des Modells einschließlich Flüssigkeit bei der Aufforderung eines gelöschten Konzepts erhalten bleiben. Wir zeigen die Wirksamkeit von ELM bei Löschungsaufgaben in den Bereichen Biosecurity, Cybersecurity und Literatur. Der Vergleich zeigt, dass ELM eine überlegene Leistung bei unseren vorgeschlagenen Metriken erzielt, einschließlich nahezu zufälliger Bewertungen bei gelöschten Themen, Generierungsflüssigkeit, beibehaltener Genauigkeit bei nicht verwandten Benchmarks und Robustheit gegenüber Angriffen. Unser Code, Daten und trainierte Modelle sind verfügbar unter https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.infoSummary
AI-Generated Summary