ChatPaper.aiChatPaper

Apagando Conhecimento Conceitual de Modelos de Linguagem

Erasing Conceptual Knowledge from Language Models

October 3, 2024
Autores: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI

Resumo

A eliminação de conceitos em modelos de linguagem tradicionalmente careceu de um quadro abrangente de avaliação, resultando em avaliações incompletas da eficácia dos métodos de eliminação. Propomos um paradigma de avaliação centrado em três critérios críticos: inocência (remoção completa do conhecimento), integridade (mantendo a geração condicional fluente) e especificidade (preservando o desempenho de tarefas não relacionadas). Nossas métricas de avaliação naturalmente motivam o desenvolvimento do Erasure of Language Memory (ELM), um novo método projetado para abordar essas três dimensões. O ELM emprega atualizações direcionadas de baixa ordem para alterar as distribuições de saída para conceitos eliminados, preservando as capacidades gerais do modelo, incluindo a fluência ao solicitar um conceito eliminado. Demonstramos a eficácia do ELM em tarefas de eliminação nos domínios de biossegurança, cibersegurança e literatura. A análise comparativa mostra que o ELM alcança um desempenho superior em nossas métricas propostas, incluindo pontuações quase aleatórias em avaliações de tópicos eliminados, fluência na geração, precisão mantida em benchmarks não relacionados e robustez sob ataques adversariais. Nosso código, dados e modelos treinados estão disponíveis em https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

Summary

AI-Generated Summary

PDF144November 16, 2024