Disimparare Informazioni Sensibili nei Modelli Linguistici Multimodali: Benchmark e Valutazione Attacco-Difesa

Abstract

I LLM addestrati su enormi dataset possono acquisire involontariamente informazioni sensibili come dettagli personali e contenuti potenzialmente dannosi. Questo rischio è ulteriormente amplificato nei LLM multimodali, poiché integrano informazioni provenienti da più modalità (immagine e testo). Gli avversari possono sfruttare questa conoscenza attraverso prompt multimodali per estrarre dettagli sensibili. Valutare quanto efficacemente i MLLM possano dimenticare tali informazioni (unlearning mirato) richiede la creazione di coppie immagine-testo di alta qualità e ben annotate. Mentre i precedenti lavori sull'unlearning si sono concentrati sul testo, l'unlearning multimodale rimane poco esplorato. Per colmare questa lacuna, introduciamo innanzitutto un benchmark per l'unlearning multimodale, UnLOK-VQA (Unlearning Outside Knowledge VQA), insieme a un framework di attacco e difesa per valutare i metodi di cancellazione di specifiche conoscenze multimodali dai MLLM. Estendiamo un dataset di visual question-answer utilizzando una pipeline automatizzata che genera campioni a varia prossimità per testare generalizzazione e specificità, seguita da un filtraggio manuale per mantenere un'alta qualità. Valutiamo quindi sei obiettivi di difesa contro sette attacchi (quattro whitebox, tre blackbox), inclusa una nuova metodologia whitebox che sfrutta l'interpretabilità degli stati nascosti. I nostri risultati mostrano che gli attacchi multimodali superano quelli basati solo su testo o immagini, e che la difesa più efficace rimuove le informazioni di risposta dagli stati interni del modello. Inoltre, i modelli più grandi mostrano una maggiore robustezza post-modifica, suggerendo che la scala migliora la sicurezza. UnLOK-VQA fornisce un benchmark rigoroso per far progredire l'unlearning nei MLLM.

English

LLMs trained on massive datasets may inadvertently acquire sensitive information such as personal details and potentially harmful content. This risk is further heightened in multimodal LLMs as they integrate information from multiple modalities (image and text). Adversaries can exploit this knowledge through multimodal prompts to extract sensitive details. Evaluating how effectively MLLMs can forget such information (targeted unlearning) necessitates the creation of high-quality, well-annotated image-text pairs. While prior work on unlearning has focused on text, multimodal unlearning remains underexplored. To address this gap, we first introduce a multimodal unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as an attack-and-defense framework to evaluate methods for deleting specific multimodal knowledge from MLLMs. We extend a visual question-answering dataset using an automated pipeline that generates varying-proximity samples for testing generalization and specificity, followed by manual filtering for maintaining high quality. We then evaluate six defense objectives against seven attacks (four whitebox, three blackbox), including a novel whitebox method leveraging interpretability of hidden states. Our results show multimodal attacks outperform text- or image-only ones, and that the most effective defense removes answer information from internal model states. Additionally, larger models exhibit greater post-editing robustness, suggesting that scale enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing unlearning in MLLMs.

Disimparare Informazioni Sensibili nei Modelli Linguistici Multimodali: Benchmark e Valutazione Attacco-Difesa

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

Abstract

Support