ChatPaper.aiChatPaper

Удаление концептуальных знаний из языковых моделей

Erasing Conceptual Knowledge from Language Models

October 3, 2024
Авторы: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI

Аннотация

Концепция стирания в языковых моделях традиционно страдала от отсутствия комплексной системы оценки, что приводило к неполным оценкам эффективности методов стирания. Мы предлагаем парадигму оценки, сосредоточенную на трех критических критериях: невиновность (полное удаление знаний), плавность (сохранение условно связанной генерации) и специфичность (сохранение производительности по независимым задачам). Наши метрики оценки естественным образом стимулируют развитие метода стирания языковой памяти (ELM), нового метода, разработанного для учета всех трех измерений. ELM использует целенаправленные обновления низкого ранга для изменения распределений вывода для стертых концепций, сохраняя при этом общие возможности модели, включая плавность при запросе стертого концепта. Мы демонстрируем эффективность ELM на задачах стирания в областях биобезопасности, кибербезопасности и литературы. Сравнительный анализ показывает, что ELM достигает превосходной производительности по нашим предложенным метрикам, включая близкие к случайным оценкам по стертым темам, плавность генерации, сохраненную точность на независимых бенчмарках и устойчивость к атакам злоумышленников. Наш код, данные и обученные модели доступны по адресу https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

Summary

AI-Generated Summary

PDF144November 16, 2024