Cancellazione della Conoscenza Concettuale dai Modelli Linguistici
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Autori: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Abstract
L'eliminazione concettuale nei modelli linguistici ha tradizionalmente mancato di un quadro di valutazione completo, portando a valutazioni incomplete dell'efficacia dei metodi di cancellazione. Proponiamo un paradigma di valutazione incentrato su tre criteri critici: innocenza (rimozione completa della conoscenza), fluidità (mantenimento della generazione condizionale fluente) e specificità (preservazione delle prestazioni non correlate al compito). Le nostre metriche di valutazione motivano naturalmente lo sviluppo di Erasure of Language Memory (ELM), un nuovo metodo progettato per affrontare tutte e tre le dimensioni. ELM utilizza aggiornamenti mirati a basso rango per modificare le distribuzioni di output per i concetti eliminati, preservando nel complesso le capacità del modello, inclusa la fluidità quando richiesto per un concetto eliminato. Dimostriamo l'efficacia di ELM nelle attività di eliminazione nel dominio della biosecurity, della cybersecurity e letterario. L'analisi comparativa mostra che ELM raggiunge prestazioni superiori secondo le nostre metriche proposte, inclusi punteggi quasi casuali nelle valutazioni dei temi eliminati, fluidità di generazione, accuratezza mantenuta su benchmark non correlati e robustezza agli attacchi avversari. Il nostro codice, i dati e i modelli addestrati sono disponibili su https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.info