ChatPaper.aiChatPaper

Cancellazione della Conoscenza Concettuale dai Modelli Linguistici

Erasing Conceptual Knowledge from Language Models

October 3, 2024
Autori: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI

Abstract

L'eliminazione concettuale nei modelli linguistici ha tradizionalmente mancato di un quadro di valutazione completo, portando a valutazioni incomplete dell'efficacia dei metodi di cancellazione. Proponiamo un paradigma di valutazione incentrato su tre criteri critici: innocenza (rimozione completa della conoscenza), fluidità (mantenimento della generazione condizionale fluente) e specificità (preservazione delle prestazioni non correlate al compito). Le nostre metriche di valutazione motivano naturalmente lo sviluppo di Erasure of Language Memory (ELM), un nuovo metodo progettato per affrontare tutte e tre le dimensioni. ELM utilizza aggiornamenti mirati a basso rango per modificare le distribuzioni di output per i concetti eliminati, preservando nel complesso le capacità del modello, inclusa la fluidità quando richiesto per un concetto eliminato. Dimostriamo l'efficacia di ELM nelle attività di eliminazione nel dominio della biosecurity, della cybersecurity e letterario. L'analisi comparativa mostra che ELM raggiunge prestazioni superiori secondo le nostre metriche proposte, inclusi punteggi quasi casuali nelle valutazioni dei temi eliminati, fluidità di generazione, accuratezza mantenuta su benchmark non correlati e robustezza agli attacchi avversari. Il nostro codice, i dati e i modelli addestrati sono disponibili su https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info
PDF144November 16, 2024