Удаление концептуальных знаний из языковых моделей
Erasing Conceptual Knowledge from Language Models
October 3, 2024
Авторы: Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau
cs.AI
Аннотация
Концепция стирания в языковых моделях традиционно страдала от отсутствия комплексной системы оценки, что приводило к неполным оценкам эффективности методов стирания. Мы предлагаем парадигму оценки, сосредоточенную на трех критических критериях: невиновность (полное удаление знаний), плавность (сохранение условно связанной генерации) и специфичность (сохранение производительности по независимым задачам). Наши метрики оценки естественным образом стимулируют развитие метода стирания языковой памяти (ELM), нового метода, разработанного для учета всех трех измерений. ELM использует целенаправленные обновления низкого ранга для изменения распределений вывода для стертых концепций, сохраняя при этом общие возможности модели, включая плавность при запросе стертого концепта. Мы демонстрируем эффективность ELM на задачах стирания в областях биобезопасности, кибербезопасности и литературы. Сравнительный анализ показывает, что ELM достигает превосходной производительности по нашим предложенным метрикам, включая близкие к случайным оценкам по стертым темам, плавность генерации, сохраненную точность на независимых бенчмарках и устойчивость к атакам злоумышленников. Наш код, данные и обученные модели доступны по адресу https://elm.baulab.info
English
Concept erasure in language models has traditionally lacked a comprehensive
evaluation framework, leading to incomplete assessments of effectiveness of
erasure methods. We propose an evaluation paradigm centered on three critical
criteria: innocence (complete knowledge removal), seamlessness (maintaining
conditional fluent generation), and specificity (preserving unrelated task
performance). Our evaluation metrics naturally motivate the development of
Erasure of Language Memory (ELM), a new method designed to address all three
dimensions. ELM employs targeted low-rank updates to alter output distributions
for erased concepts while preserving overall model capabilities including
fluency when prompted for an erased concept. We demonstrate ELM's efficacy on
biosecurity, cybersecurity, and literary domain erasure tasks. Comparative
analysis shows that ELM achieves superior performance across our proposed
metrics, including near-random scores on erased topic assessments, generation
fluency, maintained accuracy on unrelated benchmarks, and robustness under
adversarial attacks. Our code, data, and trained models are available at
https://elm.baulab.infoSummary
AI-Generated Summary