Esquecimento de Informações Sensíveis em LLMs Multimodais: Benchmark e Avaliação de Ataques e Defesas
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
May 1, 2025
Autores: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI
Resumo
LLMs treinados em conjuntos de dados massivos podem inadvertidamente adquirir informações sensíveis, como detalhes pessoais e conteúdo potencialmente prejudicial. Esse risco é ainda mais acentuado em LLMs multimodais, pois eles integram informações de múltiplas modalidades (imagem e texto). Adversários podem explorar esse conhecimento por meio de prompts multimodais para extrair detalhes sensíveis. Avaliar quão efetivamente MLLMs podem esquecer tais informações (desaprendizado direcionado) exige a criação de pares imagem-texto de alta qualidade e bem anotados. Embora trabalhos anteriores sobre desaprendizado tenham se concentrado em texto, o desaprendizado multimodal permanece pouco explorado. Para preencher essa lacuna, primeiro introduzimos um benchmark de desaprendizado multimodal, UnLOK-VQA (Unlearning Outside Knowledge VQA), bem como uma estrutura de ataque e defesa para avaliar métodos de exclusão de conhecimento multimodal específico de MLLMs. Estendemos um conjunto de dados de questionamento visual usando um pipeline automatizado que gera amostras de proximidade variável para testar generalização e especificidade, seguido por filtragem manual para manter alta qualidade. Em seguida, avaliamos seis objetivos de defesa contra sete ataques (quatro whitebox, três blackbox), incluindo um novo método whitebox que aproveita a interpretabilidade dos estados ocultos. Nossos resultados mostram que ataques multimodais superam aqueles baseados apenas em texto ou imagem, e que a defesa mais eficaz remove informações de resposta dos estados internos do modelo. Além disso, modelos maiores exibem maior robustez pós-edição, sugerindo que a escala aumenta a segurança. O UnLOK-VQA fornece um benchmark rigoroso para avançar o desaprendizado em MLLMs.
English
LLMs trained on massive datasets may inadvertently acquire sensitive
information such as personal details and potentially harmful content. This risk
is further heightened in multimodal LLMs as they integrate information from
multiple modalities (image and text). Adversaries can exploit this knowledge
through multimodal prompts to extract sensitive details. Evaluating how
effectively MLLMs can forget such information (targeted unlearning)
necessitates the creation of high-quality, well-annotated image-text pairs.
While prior work on unlearning has focused on text, multimodal unlearning
remains underexplored. To address this gap, we first introduce a multimodal
unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as
an attack-and-defense framework to evaluate methods for deleting specific
multimodal knowledge from MLLMs. We extend a visual question-answering dataset
using an automated pipeline that generates varying-proximity samples for
testing generalization and specificity, followed by manual filtering for
maintaining high quality. We then evaluate six defense objectives against seven
attacks (four whitebox, three blackbox), including a novel whitebox method
leveraging interpretability of hidden states. Our results show multimodal
attacks outperform text- or image-only ones, and that the most effective
defense removes answer information from internal model states. Additionally,
larger models exhibit greater post-editing robustness, suggesting that scale
enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing
unlearning in MLLMs.