ChatPaper.aiChatPaper

Löschen von konzeptuellem Wissen aus Sprachmodellen

Erasing Conceptual Knowledge from Language Models

October 3, 2024
Autoren: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI

Zusammenfassung

Das Konzept des Konzeptlöschens in Sprachmodellen hat traditionell an einem umfassenden Bewertungsrahmen gefehlt, was zu unvollständigen Bewertungen der Wirksamkeit von Löschmethoden geführt hat. Wir schlagen ein Bewertungsparadigma vor, das auf drei entscheidenden Kriterien basiert: Unschuld (vollständige Wissensentfernung), Nahtlosigkeit (Aufrechterhaltung bedingter flüssiger Generierung) und Spezifität (Erhaltung der Leistung bei nicht verwandten Aufgaben). Unsere Bewertungsmetriken fördern natürlich die Entwicklung von "Erasure of Language Memory" (ELM), einer neuen Methode, die darauf abzielt, alle drei Dimensionen zu berücksichtigen. ELM verwendet gezielte Low-Rank-Updates, um die Ausgabeverteilungen für gelöschte Konzepte zu ändern, während die Gesamtfähigkeiten des Modells einschließlich Flüssigkeit bei der Aufforderung eines gelöschten Konzepts erhalten bleiben. Wir zeigen die Wirksamkeit von ELM bei Löschungsaufgaben in den Bereichen Biosecurity, Cybersecurity und Literatur. Der Vergleich zeigt, dass ELM eine überlegene Leistung bei unseren vorgeschlagenen Metriken erzielt, einschließlich nahezu zufälliger Bewertungen bei gelöschten Themen, Generierungsflüssigkeit, beibehaltener Genauigkeit bei nicht verwandten Benchmarks und Robustheit gegenüber Angriffen. Unser Code, Daten und trainierte Modelle sind verfügbar unter https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

Summary

AI-Generated Summary

PDF144November 16, 2024