ChatPaper.aiChatPaper

SAE могут улучшить процесс "забывания": Динамические разреженные автоэнкодеры как защитные механизмы для точного "забывания" в больших языковых моделях

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

April 11, 2025
Авторы: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
cs.AI

Аннотация

Машинное "разучивание" представляет собой перспективный подход для повышения безопасности больших языковых моделей (LLM) путем удаления нежелательных знаний из модели. Однако преобладающие методы "разучивания", основанные на градиентах, страдают от таких проблем, как высокие вычислительные затраты, нестабильность гиперпараметров, слабая способность к последовательному "разучиванию", уязвимость к атакам повторного обучения, низкая эффективность использования данных и отсутствие интерпретируемости. Хотя разреженные автоэнкодеры (Sparse Autoencoders, SAE) хорошо подходят для улучшения этих аспектов благодаря целенаправленному "разучиванию" на основе активаций, предыдущие подходы уступают методам, основанным на градиентах. В данной работе показано, что, вопреки этим ранним выводам, SAE могут значительно улучшить "разучивание" при динамическом использовании. Мы представляем Dynamic DAE Guardrails (DSG) — новый метод точного "разучивания", который использует принципиальный отбор признаков и динамический классификатор. Наши эксперименты демонстрируют, что DSG существенно превосходит ведущие методы "разучивания", достигая оптимального баланса между забыванием и полезностью. DSG устраняет ключевые недостатки градиентных подходов к "разучиванию", предлагая повышенную вычислительную эффективность и стабильность, устойчивую производительность при последовательном "разучивании", более сильную устойчивость к атакам повторного обучения, лучшую эффективность использования данных, включая настройки с нулевым обучением, и более интерпретируемое "разучивание".
English
Machine unlearning is a promising approach to improve LLM safety by removing unwanted knowledge from the model. However, prevailing gradient-based unlearning methods suffer from issues such as high computational costs, hyperparameter instability, poor sequential unlearning capability, vulnerability to relearning attacks, low data efficiency, and lack of interpretability. While Sparse Autoencoders are well-suited to improve these aspects by enabling targeted activation-based unlearning, prior approaches underperform gradient-based methods. This work demonstrates that, contrary to these earlier findings, SAEs can significantly improve unlearning when employed dynamically. We introduce Dynamic DAE Guardrails (DSG), a novel method for precision unlearning that leverages principled feature selection and a dynamic classifier. Our experiments show DSG substantially outperforms leading unlearning methods, achieving superior forget-utility trade-offs. DSG addresses key drawbacks of gradient-based approaches for unlearning -- offering enhanced computational efficiency and stability, robust performance in sequential unlearning, stronger resistance to relearning attacks, better data efficiency including zero-shot settings, and more interpretable unlearning.

Summary

AI-Generated Summary

PDF42April 14, 2025