Das Verlernen sensibler Informationen in multimodalen LLMs: Benchmark und Angriffs-Abwehr-Evaluierung
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
May 1, 2025
Autoren: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI
Zusammenfassung
LLMs, die auf riesigen Datensätzen trainiert werden, können versehentlich sensible Informationen wie persönliche Details und potenziell schädliche Inhalte erlernen. Dieses Risiko wird in multimodalen LLMs noch verstärkt, da sie Informationen aus mehreren Modalitäten (Bild und Text) integrieren. Gegner können dieses Wissen durch multimodale Prompts ausnutzen, um sensible Details zu extrahieren. Die Bewertung, wie effektiv MLLMs solche Informationen vergessen können (zielgerichtetes Unlearning), erfordert die Erstellung hochwertiger, gut annotierter Bild-Text-Paare. Während sich frühere Arbeiten zum Unlearning auf Text konzentriert haben, bleibt multimodales Unlearning weitgehend unerforscht. Um diese Lücke zu schließen, führen wir zunächst einen multimodalen Unlearning-Benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), sowie ein Angriffs- und Verteidigungsframework ein, um Methoden zum Löschen spezifischen multimodalen Wissens aus MLLMs zu bewerten. Wir erweitern einen visuellen Frage-Antwort-Datensatz mithilfe einer automatisierten Pipeline, die Proben mit unterschiedlicher Nähe zur Generalisierung und Spezifität generiert, gefolgt von einer manuellen Filterung zur Aufrechterhaltung der hohen Qualität. Anschließend bewerten wir sechs Verteidigungsziele gegen sieben Angriffe (vier Whitebox, drei Blackbox), darunter eine neuartige Whitebox-Methode, die die Interpretierbarkeit versteckter Zustände nutzt. Unsere Ergebnisse zeigen, dass multimodale Angriffe text- oder bildbasierte übertreffen und dass die effektivste Verteidigung Antwortinformationen aus internen Modellzuständen entfernt. Darüber hinaus zeigen größere Modelle eine höhere Robustheit nach der Bearbeitung, was darauf hindeutet, dass Skalierung die Sicherheit erhöht. UnLOK-VQA bietet einen rigorosen Benchmark für die Weiterentwicklung des Unlearnings in MLLMs.
English
LLMs trained on massive datasets may inadvertently acquire sensitive
information such as personal details and potentially harmful content. This risk
is further heightened in multimodal LLMs as they integrate information from
multiple modalities (image and text). Adversaries can exploit this knowledge
through multimodal prompts to extract sensitive details. Evaluating how
effectively MLLMs can forget such information (targeted unlearning)
necessitates the creation of high-quality, well-annotated image-text pairs.
While prior work on unlearning has focused on text, multimodal unlearning
remains underexplored. To address this gap, we first introduce a multimodal
unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as
an attack-and-defense framework to evaluate methods for deleting specific
multimodal knowledge from MLLMs. We extend a visual question-answering dataset
using an automated pipeline that generates varying-proximity samples for
testing generalization and specificity, followed by manual filtering for
maintaining high quality. We then evaluate six defense objectives against seven
attacks (four whitebox, three blackbox), including a novel whitebox method
leveraging interpretability of hidden states. Our results show multimodal
attacks outperform text- or image-only ones, and that the most effective
defense removes answer information from internal model states. Additionally,
larger models exhibit greater post-editing robustness, suggesting that scale
enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing
unlearning in MLLMs.Summary
AI-Generated Summary