Disimparare Informazioni Sensibili nei Modelli Linguistici Multimodali: Benchmark e Valutazione Attacco-Difesa
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
May 1, 2025
Autori: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI
Abstract
I LLM addestrati su enormi dataset possono acquisire involontariamente informazioni sensibili come dettagli personali e contenuti potenzialmente dannosi. Questo rischio è ulteriormente amplificato nei LLM multimodali, poiché integrano informazioni provenienti da più modalità (immagine e testo). Gli avversari possono sfruttare questa conoscenza attraverso prompt multimodali per estrarre dettagli sensibili. Valutare quanto efficacemente i MLLM possano dimenticare tali informazioni (unlearning mirato) richiede la creazione di coppie immagine-testo di alta qualità e ben annotate. Mentre i precedenti lavori sull'unlearning si sono concentrati sul testo, l'unlearning multimodale rimane poco esplorato. Per colmare questa lacuna, introduciamo innanzitutto un benchmark per l'unlearning multimodale, UnLOK-VQA (Unlearning Outside Knowledge VQA), insieme a un framework di attacco e difesa per valutare i metodi di cancellazione di specifiche conoscenze multimodali dai MLLM. Estendiamo un dataset di visual question-answer utilizzando una pipeline automatizzata che genera campioni a varia prossimità per testare generalizzazione e specificità, seguita da un filtraggio manuale per mantenere un'alta qualità. Valutiamo quindi sei obiettivi di difesa contro sette attacchi (quattro whitebox, tre blackbox), inclusa una nuova metodologia whitebox che sfrutta l'interpretabilità degli stati nascosti. I nostri risultati mostrano che gli attacchi multimodali superano quelli basati solo su testo o immagini, e che la difesa più efficace rimuove le informazioni di risposta dagli stati interni del modello. Inoltre, i modelli più grandi mostrano una maggiore robustezza post-modifica, suggerendo che la scala migliora la sicurezza. UnLOK-VQA fornisce un benchmark rigoroso per far progredire l'unlearning nei MLLM.
English
LLMs trained on massive datasets may inadvertently acquire sensitive
information such as personal details and potentially harmful content. This risk
is further heightened in multimodal LLMs as they integrate information from
multiple modalities (image and text). Adversaries can exploit this knowledge
through multimodal prompts to extract sensitive details. Evaluating how
effectively MLLMs can forget such information (targeted unlearning)
necessitates the creation of high-quality, well-annotated image-text pairs.
While prior work on unlearning has focused on text, multimodal unlearning
remains underexplored. To address this gap, we first introduce a multimodal
unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as
an attack-and-defense framework to evaluate methods for deleting specific
multimodal knowledge from MLLMs. We extend a visual question-answering dataset
using an automated pipeline that generates varying-proximity samples for
testing generalization and specificity, followed by manual filtering for
maintaining high quality. We then evaluate six defense objectives against seven
attacks (four whitebox, three blackbox), including a novel whitebox method
leveraging interpretability of hidden states. Our results show multimodal
attacks outperform text- or image-only ones, and that the most effective
defense removes answer information from internal model states. Additionally,
larger models exhibit greater post-editing robustness, suggesting that scale
enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing
unlearning in MLLMs.