Het wissen van conceptuele kennis uit taalmodellen
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Auteurs: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Samenvatting
Het concept van het wissen van informatie in taalmodellen heeft traditioneel een gebrek aan een uitgebreid evaluatiekader, wat heeft geleid tot onvolledige beoordelingen van de effectiviteit van wismethoden. Wij stellen een evaluatieparadigma voor dat is gebaseerd op drie kritieke criteria: onschuld (volledige kennisverwijdering), naadloosheid (behoud van voorwaardelijke vloeiende generatie) en specificiteit (behoud van prestaties op niet-gerelateerde taken). Onze evaluatiemetrics stimuleren op natuurlijke wijze de ontwikkeling van Erasure of Language Memory (ELM), een nieuwe methode die is ontworpen om aan alle drie dimensies te voldoen. ELM maakt gebruik van gerichte updates met lage rang om outputverdelingen voor gewiste concepten te wijzigen, terwijl de algehele modelmogelijkheden behouden blijven, inclusief vloeiendheid wanneer gevraagd wordt om een gewist concept. We tonen de effectiviteit van ELM aan bij taken voor het wissen van informatie in de biosecurity, cybersecurity en literaire domeinen. Vergelijkende analyses tonen aan dat ELM superieure prestaties behaalt op onze voorgestelde metrics, inclusief bijna-willekeurige scores bij beoordelingen van gewiste onderwerpen, generatievloeiendheid, behouden nauwkeurigheid op niet-gerelateerde benchmarks en robuustheid tegen aanvallen. Onze code, data en getrainde modellen zijn beschikbaar op https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.infoSummary
AI-Generated Summary