ОЧИСТКА: Забывание характера в текстовых и визуальных модальностях
CLEAR: Character Unlearning in Textual and Visual Modalities
October 23, 2024
Авторы: Alexey Dontsov, Dmitrii Korzh, Alexey Zhavoronkin, Boris Mikheev, Denis Bobkov, Aibek Alanov, Oleg Y. Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI
Аннотация
Машинное забывание (MU) критически важно для повышения конфиденциальности и безопасности в моделях глубокого обучения, особенно в больших мультимодальных языковых моделях (MLLMs), путем удаления конкретной частной или опасной информации. В то время как MU достиг значительного прогресса в текстовых и визуальных модальностях, мультимодальное забывание (MMU) остается значительно недоисследованным, частично из-за отсутствия подходящего открытого бенчмарка. Для решения этой проблемы мы представляем CLEAR, новый бенчмарк, разработанный для оценки методов MMU. CLEAR содержит 200 вымышленных личностей и 3,700 изображений, связанных с соответствующими вопросно-ответными парами, обеспечивая тщательную оценку по различным модальностям. Мы оцениваем 10 методов MU, адаптируя их для MMU, и выделяем новые вызовы, специфические для мультимодального забывания. Мы также демонстрируем, что простая регуляризация ell_1 на весах LoRA значительно смягчает катастрофическое забывание, сохраняя производительность модели на сохраненных данных. Набор данных доступен по ссылке https://huggingface.co/datasets/therem/CLEAR
English
Machine Unlearning (MU) is critical for enhancing privacy and security in
deep learning models, particularly in large multimodal language models (MLLMs),
by removing specific private or hazardous information. While MU has made
significant progress in textual and visual modalities, multimodal unlearning
(MMU) remains significantly underexplored, partially due to the absence of a
suitable open-source benchmark. To address this, we introduce CLEAR, a new
benchmark designed to evaluate MMU methods. CLEAR contains 200 fictitious
individuals and 3,700 images linked with corresponding question-answer pairs,
enabling a thorough evaluation across modalities. We assess 10 MU methods,
adapting them for MMU, and highlight new challenges specific to multimodal
forgetting. We also demonstrate that simple ell_1 regularization on LoRA
weights significantly mitigates catastrophic forgetting, preserving model
performance on retained data. The dataset is available at
https://huggingface.co/datasets/therem/CLEARSummary
AI-Generated Summary