Apagando Conhecimento Conceitual de Modelos de Linguagem
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Autores: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Resumo
A eliminação de conceitos em modelos de linguagem tradicionalmente careceu de um quadro abrangente de avaliação, resultando em avaliações incompletas da eficácia dos métodos de eliminação. Propomos um paradigma de avaliação centrado em três critérios críticos: inocência (remoção completa do conhecimento), integridade (mantendo a geração condicional fluente) e especificidade (preservando o desempenho de tarefas não relacionadas). Nossas métricas de avaliação naturalmente motivam o desenvolvimento do Erasure of Language Memory (ELM), um novo método projetado para abordar essas três dimensões. O ELM emprega atualizações direcionadas de baixa ordem para alterar as distribuições de saída para conceitos eliminados, preservando as capacidades gerais do modelo, incluindo a fluência ao solicitar um conceito eliminado. Demonstramos a eficácia do ELM em tarefas de eliminação nos domínios de biossegurança, cibersegurança e literatura. A análise comparativa mostra que o ELM alcança um desempenho superior em nossas métricas propostas, incluindo pontuações quase aleatórias em avaliações de tópicos eliminados, fluência na geração, precisão mantida em benchmarks não relacionados e robustez sob ataques adversariais. Nosso código, dados e modelos treinados estão disponíveis em https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.infoSummary
AI-Generated Summary