Effacement des connaissances conceptuelles des modèles de langage
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Auteurs: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Résumé
La suppression de concepts dans les modèles de langage a traditionnellement manqué d'un cadre d'évaluation complet, entraînant des évaluations incomplètes de l'efficacité des méthodes de suppression. Nous proposons un paradigme d'évaluation centré sur trois critères essentiels : l'innocence (suppression complète des connaissances), la fluidité (maintien d'une génération conditionnelle fluide) et la spécificité (préservation des performances de tâches non liées). Nos métriques d'évaluation motivent naturellement le développement de l'Effacement de la Mémoire du Langage (ELM), une nouvelle méthode conçue pour aborder ces trois dimensions. L'ELM utilise des mises à jour ciblées de faible rang pour modifier les distributions de sortie des concepts effacés tout en préservant les capacités globales du modèle, y compris la fluidité lorsqu'il est sollicité pour un concept effacé. Nous démontrons l'efficacité de l'ELM dans les tâches d'effacement liées à la biosécurité, à la cybersécurité et au domaine littéraire. L'analyse comparative montre que l'ELM atteint des performances supérieures selon nos métriques proposées, y compris des scores proches de l'aléatoire sur les évaluations de sujets effacés, la fluidité de génération, la précision maintenue sur des références non liées, et la robustesse face aux attaques adverses. Notre code, nos données et nos modèles entraînés sont disponibles sur https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.info