ChatPaper.aiChatPaper

Désapprentissage des informations sensibles dans les LLMs multimodales : Benchmark et évaluation attaque-défense

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

May 1, 2025
Auteurs: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI

Résumé

Les LLM (modèles de langage de grande taille) entraînés sur des ensembles de données massifs peuvent acquérir involontairement des informations sensibles telles que des détails personnels et des contenus potentiellement nuisibles. Ce risque est encore accru dans les LLM multimodaux, car ils intègrent des informations provenant de multiples modalités (image et texte). Les adversaires peuvent exploiter ces connaissances à travers des invites multimodales pour extraire des détails sensibles. Évaluer dans quelle mesure les MLLM (modèles de langage multimodaux) peuvent oublier de telles informations (désapprentissage ciblé) nécessite la création de paires image-texte de haute qualité et bien annotées. Alors que les travaux précédents sur le désapprentissage se sont concentrés sur le texte, le désapprentissage multimodal reste peu exploré. Pour combler cette lacune, nous introduisons d'abord un benchmark de désapprentissage multimodal, UnLOK-VQA (Unlearning Outside Knowledge VQA), ainsi qu'un cadre d'attaque et de défense pour évaluer les méthodes de suppression de connaissances multimodales spécifiques des MLLM. Nous étendons un ensemble de données de question-réponse visuelle en utilisant un pipeline automatisé qui génère des échantillons de proximité variable pour tester la généralisation et la spécificité, suivis d'un filtrage manuel pour maintenir une haute qualité. Nous évaluons ensuite six objectifs de défense contre sept attaques (quatre en boîte blanche, trois en boîte noire), y compris une nouvelle méthode en boîte blanche exploitant l'interprétabilité des états cachés. Nos résultats montrent que les attaques multimodales surpassent celles basées uniquement sur le texte ou l'image, et que la défense la plus efficace consiste à supprimer les informations de réponse des états internes du modèle. De plus, les modèles plus grands présentent une robustesse accrue après édition, suggérant que l'échelle améliore la sécurité. UnLOK-VQA fournit un benchmark rigoureux pour faire progresser le désapprentissage dans les MLLM.
English
LLMs trained on massive datasets may inadvertently acquire sensitive information such as personal details and potentially harmful content. This risk is further heightened in multimodal LLMs as they integrate information from multiple modalities (image and text). Adversaries can exploit this knowledge through multimodal prompts to extract sensitive details. Evaluating how effectively MLLMs can forget such information (targeted unlearning) necessitates the creation of high-quality, well-annotated image-text pairs. While prior work on unlearning has focused on text, multimodal unlearning remains underexplored. To address this gap, we first introduce a multimodal unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as an attack-and-defense framework to evaluate methods for deleting specific multimodal knowledge from MLLMs. We extend a visual question-answering dataset using an automated pipeline that generates varying-proximity samples for testing generalization and specificity, followed by manual filtering for maintaining high quality. We then evaluate six defense objectives against seven attacks (four whitebox, three blackbox), including a novel whitebox method leveraging interpretability of hidden states. Our results show multimodal attacks outperform text- or image-only ones, and that the most effective defense removes answer information from internal model states. Additionally, larger models exhibit greater post-editing robustness, suggesting that scale enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing unlearning in MLLMs.

Summary

AI-Generated Summary

PDF21May 6, 2025