Effacement des connaissances conceptuelles des modèles de langage

papers.abstract

La suppression de concepts dans les modèles de langage a traditionnellement manqué d'un cadre d'évaluation complet, entraînant des évaluations incomplètes de l'efficacité des méthodes de suppression. Nous proposons un paradigme d'évaluation centré sur trois critères essentiels : l'innocence (suppression complète des connaissances), la fluidité (maintien d'une génération conditionnelle fluide) et la spécificité (préservation des performances de tâches non liées). Nos métriques d'évaluation motivent naturellement le développement de l'Effacement de la Mémoire du Langage (ELM), une nouvelle méthode conçue pour aborder ces trois dimensions. L'ELM utilise des mises à jour ciblées de faible rang pour modifier les distributions de sortie des concepts effacés tout en préservant les capacités globales du modèle, y compris la fluidité lorsqu'il est sollicité pour un concept effacé. Nous démontrons l'efficacité de l'ELM dans les tâches d'effacement liées à la biosécurité, à la cybersécurité et au domaine littéraire. L'analyse comparative montre que l'ELM atteint des performances supérieures selon nos métriques proposées, y compris des scores proches de l'aléatoire sur les évaluations de sujets effacés, la fluidité de génération, la précision maintenue sur des références non liées, et la robustesse face aux attaques adverses. Notre code, nos données et nos modèles entraînés sont disponibles sur https://elm.baulab.info

English

Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

Effacement des connaissances conceptuelles des modèles de langage

Erasing Conceptual Knowledge from Language Models

papers.abstract

Support