ChatPaper.aiChatPaper

Olvido de Información Sensible en LLMs Multimodales: Evaluación de Referencia y Ataque-Defensa

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

May 1, 2025
Autores: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI

Resumen

Los LLM entrenados en conjuntos de datos masivos pueden adquirir inadvertidamente información sensible, como detalles personales y contenido potencialmente dañino. Este riesgo se ve aún más exacerbado en los LLM multimodales, ya que integran información de múltiples modalidades (imagen y texto). Los adversarios pueden explotar este conocimiento mediante prompts multimodales para extraer detalles sensibles. Evaluar cuán efectivamente los MLLM pueden olvidar dicha información (desaprendizaje dirigido) requiere la creación de pares imagen-texto de alta calidad y bien anotados. Si bien trabajos previos sobre desaprendizaje se han centrado en texto, el desaprendizaje multimodal sigue siendo poco explorado. Para abordar esta brecha, primero presentamos un benchmark de desaprendizaje multimodal, UnLOK-VQA (Unlearning Outside Knowledge VQA), junto con un marco de ataque y defensa para evaluar métodos de eliminación de conocimiento multimodal específico en MLLM. Extendemos un conjunto de datos de respuesta visual a preguntas utilizando una pipeline automatizada que genera muestras de proximidad variable para probar generalización y especificidad, seguido de un filtrado manual para mantener la alta calidad. Luego evaluamos seis objetivos de defensa contra siete ataques (cuatro de caja blanca, tres de caja negra), incluyendo un novedoso método de caja blanca que aprovecha la interpretabilidad de los estados ocultos. Nuestros resultados muestran que los ataques multimodales superan a los basados únicamente en texto o imagen, y que la defensa más efectiva elimina la información de respuesta de los estados internos del modelo. Además, los modelos más grandes exhiben una mayor robustez post-edición, sugiriendo que la escala mejora la seguridad. UnLOK-VQA proporciona un benchmark riguroso para avanzar en el desaprendizaje en MLLM.
English
LLMs trained on massive datasets may inadvertently acquire sensitive information such as personal details and potentially harmful content. This risk is further heightened in multimodal LLMs as they integrate information from multiple modalities (image and text). Adversaries can exploit this knowledge through multimodal prompts to extract sensitive details. Evaluating how effectively MLLMs can forget such information (targeted unlearning) necessitates the creation of high-quality, well-annotated image-text pairs. While prior work on unlearning has focused on text, multimodal unlearning remains underexplored. To address this gap, we first introduce a multimodal unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as an attack-and-defense framework to evaluate methods for deleting specific multimodal knowledge from MLLMs. We extend a visual question-answering dataset using an automated pipeline that generates varying-proximity samples for testing generalization and specificity, followed by manual filtering for maintaining high quality. We then evaluate six defense objectives against seven attacks (four whitebox, three blackbox), including a novel whitebox method leveraging interpretability of hidden states. Our results show multimodal attacks outperform text- or image-only ones, and that the most effective defense removes answer information from internal model states. Additionally, larger models exhibit greater post-editing robustness, suggesting that scale enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing unlearning in MLLMs.

Summary

AI-Generated Summary

PDF21May 6, 2025