Забывание конфиденциальной информации в мультимодальных больших языковых моделях: бенчмарк и оценка атак и защиты
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
May 1, 2025
Авторы: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI
Аннотация
LLM, обученные на огромных наборах данных, могут непреднамеренно усваивать конфиденциальную информацию, такую как личные данные и потенциально вредоносный контент. Этот риск еще больше возрастает в мультимодальных LLM, поскольку они интегрируют информацию из нескольких модальностей (изображение и текст). Злоумышленники могут использовать эти знания с помощью мультимодальных запросов для извлечения конфиденциальных сведений. Оценка того, насколько эффективно MLLM могут забывать такую информацию (целевое удаление знаний), требует создания высококачественных, хорошо аннотированных пар изображение-текст. Хотя предыдущие работы по удалению знаний были сосредоточены на тексте, мультимодальное удаление остается малоизученным. Чтобы восполнить этот пробел, мы сначала представляем мультимодальный бенчмарк для удаления знаний, UnLOK-VQA (Unlearning Outside Knowledge VQA), а также фреймворк "атака-защита" для оценки методов удаления конкретных мультимодальных знаний из MLLM. Мы расширяем набор данных для визуального ответа на вопросы с помощью автоматизированного конвейера, который генерирует образцы с различной степенью близости для тестирования обобщения и специфичности, за которым следует ручная фильтрация для поддержания высокого качества. Затем мы оцениваем шесть целей защиты против семи атак (четыре белых ящика, три черных ящика), включая новый метод белого ящика, использующий интерпретируемость скрытых состояний. Наши результаты показывают, что мультимодальные атаки превосходят атаки только на текст или изображение, и что наиболее эффективная защита удаляет информацию о ответах из внутренних состояний модели. Кроме того, более крупные модели демонстрируют большую устойчивость после редактирования, что позволяет предположить, что масштаб повышает безопасность. UnLOK-VQA предоставляет строгий бенчмарк для продвижения исследований в области удаления знаний в MLLM.
English
LLMs trained on massive datasets may inadvertently acquire sensitive
information such as personal details and potentially harmful content. This risk
is further heightened in multimodal LLMs as they integrate information from
multiple modalities (image and text). Adversaries can exploit this knowledge
through multimodal prompts to extract sensitive details. Evaluating how
effectively MLLMs can forget such information (targeted unlearning)
necessitates the creation of high-quality, well-annotated image-text pairs.
While prior work on unlearning has focused on text, multimodal unlearning
remains underexplored. To address this gap, we first introduce a multimodal
unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as
an attack-and-defense framework to evaluate methods for deleting specific
multimodal knowledge from MLLMs. We extend a visual question-answering dataset
using an automated pipeline that generates varying-proximity samples for
testing generalization and specificity, followed by manual filtering for
maintaining high quality. We then evaluate six defense objectives against seven
attacks (four whitebox, three blackbox), including a novel whitebox method
leveraging interpretability of hidden states. Our results show multimodal
attacks outperform text- or image-only ones, and that the most effective
defense removes answer information from internal model states. Additionally,
larger models exhibit greater post-editing robustness, suggesting that scale
enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing
unlearning in MLLMs.Summary
AI-Generated Summary