Eliminación del Conocimiento Conceptual de los Modelos de Lenguaje

Resumen

La eliminación de conceptos en modelos de lenguaje ha carecido tradicionalmente de un marco de evaluación integral, lo que ha llevado a evaluaciones incompletas de la efectividad de los métodos de eliminación. Proponemos un paradigma de evaluación centrado en tres criterios críticos: inocencia (eliminación completa del conocimiento), fluidez (mantenimiento de la generación condicional fluida) y especificidad (preservación del rendimiento en tareas no relacionadas). Nuestras métricas de evaluación motivan naturalmente el desarrollo de Erasure of Language Memory (ELM), un nuevo método diseñado para abordar las tres dimensiones. ELM emplea actualizaciones dirigidas de bajo rango para alterar las distribuciones de salida de los conceptos eliminados mientras preserva las capacidades generales del modelo, incluida la fluidez al solicitar un concepto eliminado. Demostramos la eficacia de ELM en tareas de eliminación en los dominios de bioseguridad, ciberseguridad y literatura. El análisis comparativo muestra que ELM logra un rendimiento superior en nuestras métricas propuestas, incluidas puntuaciones casi aleatorias en evaluaciones de temas eliminados, fluidez en la generación, precisión mantenida en puntos de referencia no relacionados y robustez ante ataques adversariales. Nuestro código, datos y modelos entrenados están disponibles en https://elm.baulab.info

English

Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

Eliminación del Conocimiento Conceptual de los Modelos de Lenguaje

Erasing Conceptual Knowledge from Language Models

Resumen

Support