ChatPaper.aiChatPaper

Het wissen van conceptuele kennis uit taalmodellen

Erasing Conceptual Knowledge from Language Models

October 3, 2024
Auteurs: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI

Samenvatting

Het concept van het wissen van informatie in taalmodellen heeft traditioneel een gebrek aan een uitgebreid evaluatiekader, wat heeft geleid tot onvolledige beoordelingen van de effectiviteit van wismethoden. Wij stellen een evaluatieparadigma voor dat is gebaseerd op drie kritieke criteria: onschuld (volledige kennisverwijdering), naadloosheid (behoud van voorwaardelijke vloeiende generatie) en specificiteit (behoud van prestaties op niet-gerelateerde taken). Onze evaluatiemetrics stimuleren op natuurlijke wijze de ontwikkeling van Erasure of Language Memory (ELM), een nieuwe methode die is ontworpen om aan alle drie dimensies te voldoen. ELM maakt gebruik van gerichte updates met lage rang om outputverdelingen voor gewiste concepten te wijzigen, terwijl de algehele modelmogelijkheden behouden blijven, inclusief vloeiendheid wanneer gevraagd wordt om een gewist concept. We tonen de effectiviteit van ELM aan bij taken voor het wissen van informatie in de biosecurity, cybersecurity en literaire domeinen. Vergelijkende analyses tonen aan dat ELM superieure prestaties behaalt op onze voorgestelde metrics, inclusief bijna-willekeurige scores bij beoordelingen van gewiste onderwerpen, generatievloeiendheid, behouden nauwkeurigheid op niet-gerelateerde benchmarks en robuustheid tegen aanvallen. Onze code, data en getrainde modellen zijn beschikbaar op https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

Summary

AI-Generated Summary

PDF144November 16, 2024