Eliminación del Conocimiento Conceptual de los Modelos de Lenguaje
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Autores: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Resumen
La eliminación de conceptos en modelos de lenguaje ha carecido tradicionalmente de un marco de evaluación integral, lo que ha llevado a evaluaciones incompletas de la efectividad de los métodos de eliminación. Proponemos un paradigma de evaluación centrado en tres criterios críticos: inocencia (eliminación completa del conocimiento), fluidez (mantenimiento de la generación condicional fluida) y especificidad (preservación del rendimiento en tareas no relacionadas). Nuestras métricas de evaluación motivan naturalmente el desarrollo de Erasure of Language Memory (ELM), un nuevo método diseñado para abordar las tres dimensiones. ELM emplea actualizaciones dirigidas de bajo rango para alterar las distribuciones de salida de los conceptos eliminados mientras preserva las capacidades generales del modelo, incluida la fluidez al solicitar un concepto eliminado. Demostramos la eficacia de ELM en tareas de eliminación en los dominios de bioseguridad, ciberseguridad y literatura. El análisis comparativo muestra que ELM logra un rendimiento superior en nuestras métricas propuestas, incluidas puntuaciones casi aleatorias en evaluaciones de temas eliminados, fluidez en la generación, precisión mantenida en puntos de referencia no relacionados y robustez ante ataques adversariales. Nuestro código, datos y modelos entrenados están disponibles en https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.infoSummary
AI-Generated Summary