Gevoelige informatie afleren in multimodale LLM's: Benchmark en aanval-verdedigingsevaluatie
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
May 1, 2025
Auteurs: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI
Samenvatting
LLM's die getraind zijn op enorme datasets kunnen onbedoeld gevoelige informatie verwerven, zoals persoonlijke gegevens en potentieel schadelijke inhoud. Dit risico wordt verder versterkt bij multimodale LLM's, aangezien zij informatie uit meerdere modaliteiten (beeld en tekst) integreren. Tegenstanders kunnen deze kennis uitbuiten via multimodale prompts om gevoelige details te extraheren. Het evalueren van hoe effectief MLLM's dergelijke informatie kunnen vergeten (gericht afleren) vereist het creëren van hoogwaardige, goed geannoteerde beeld-tekstparen. Terwijl eerder werk over afleren zich op tekst heeft gericht, blijft multimodaal afleren onderbelicht. Om deze kloof te dichten, introduceren we eerst een multimodaal afleren-benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), evenals een aanvals- en verdedigingsframework om methoden te evalueren voor het verwijderen van specifieke multimodale kennis uit MLLM's. We breiden een visuele vraag-antwoorddataset uit met behulp van een geautomatiseerde pijplijn die variërende nabijheidsmonsters genereert voor het testen van generalisatie en specificiteit, gevolgd door handmatige filtering om een hoge kwaliteit te behouden. Vervolgens evalueren we zes verdedigingsdoelen tegen zeven aanvallen (vier whitebox, drie blackbox), inclusief een nieuwe whitebox-methode die gebruikmaakt van de interpreteerbaarheid van verborgen toestanden. Onze resultaten tonen aan dat multimodale aanvallen beter presteren dan aanvallen die alleen op tekst of beeld zijn gericht, en dat de meest effectieve verdediging antwoordinformatie uit interne modeltoestanden verwijdert. Daarnaast vertonen grotere modellen een grotere robuustheid na bewerking, wat suggereert dat schaal veiligheid versterkt. UnLOK-VQA biedt een rigoureuze benchmark voor het bevorderen van afleren in MLLM's.
English
LLMs trained on massive datasets may inadvertently acquire sensitive
information such as personal details and potentially harmful content. This risk
is further heightened in multimodal LLMs as they integrate information from
multiple modalities (image and text). Adversaries can exploit this knowledge
through multimodal prompts to extract sensitive details. Evaluating how
effectively MLLMs can forget such information (targeted unlearning)
necessitates the creation of high-quality, well-annotated image-text pairs.
While prior work on unlearning has focused on text, multimodal unlearning
remains underexplored. To address this gap, we first introduce a multimodal
unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as
an attack-and-defense framework to evaluate methods for deleting specific
multimodal knowledge from MLLMs. We extend a visual question-answering dataset
using an automated pipeline that generates varying-proximity samples for
testing generalization and specificity, followed by manual filtering for
maintaining high quality. We then evaluate six defense objectives against seven
attacks (four whitebox, three blackbox), including a novel whitebox method
leveraging interpretability of hidden states. Our results show multimodal
attacks outperform text- or image-only ones, and that the most effective
defense removes answer information from internal model states. Additionally,
larger models exhibit greater post-editing robustness, suggesting that scale
enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing
unlearning in MLLMs.