ChatPaper.aiChatPaper

다중모드 LLM에서 민감한 정보의 학습 해제: 벤치마크 및 공격-방어 평가

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

May 1, 2025
저자: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
cs.AI

초록

대규모 데이터셋으로 학습된 대형 언어 모델(LLM)은 개인 정보나 잠재적으로 유해한 콘텐츠와 같은 민감한 정보를 의도치 않게 습득할 수 있습니다. 이러한 위험은 멀티모달 LLM(MLLM)에서 더욱 커지는데, 이는 이미지와 텍스트와 같은 다양한 모달리티의 정보를 통합하기 때문입니다. 공격자는 멀티모달 프롬프트를 활용하여 이러한 지식을 악용해 민감한 세부 정보를 추출할 수 있습니다. MLLM이 이러한 정보를 얼마나 효과적으로 잊어버릴 수 있는지(타겟팅된 언러닝) 평가하기 위해서는 고품질의 잘 주석이 달린 이미지-텍스트 쌍을 생성하는 것이 필수적입니다. 기존의 언러닝 연구는 텍스트에 초점을 맞추었지만, 멀티모달 언러닝은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 먼저 멀티모달 언러닝 벤치마크인 UnLOK-VQA(Unlearning Outside Knowledge VQA)와 MLLM에서 특정 멀티모달 지식을 삭제하는 방법을 평가하기 위한 공격-방어 프레임워크를 소개합니다. 우리는 시각적 질의응답 데이터셋을 자동화된 파이프라인을 사용해 일반화 및 특수성을 테스트하기 위한 다양한 근접성 샘플을 생성하고, 고품질을 유지하기 위해 수동 필터링을 거쳤습니다. 그런 다음, 네 가지 화이트박스와 세 가지 블랙박스 공격을 포함한 총 일곱 가지 공격에 대해 여섯 가지 방어 목표를 평가했으며, 여기에는 은닉 상태의 해석 가능성을 활용한 새로운 화이트박스 방법도 포함됩니다. 우리의 결과는 멀티모달 공격이 텍스트 또는 이미지 단독 공격보다 우수하며, 가장 효과적인 방어는 내부 모델 상태에서 답변 정보를 제거하는 것임을 보여줍니다. 또한, 더 큰 모델은 편집 후 더 강력한 견고성을 보여주며, 이는 규모가 안전성을 강화한다는 것을 시사합니다. UnLOK-VQA는 MLLM에서 언러닝을 발전시키기 위한 엄격한 벤치마크를 제공합니다.
English
LLMs trained on massive datasets may inadvertently acquire sensitive information such as personal details and potentially harmful content. This risk is further heightened in multimodal LLMs as they integrate information from multiple modalities (image and text). Adversaries can exploit this knowledge through multimodal prompts to extract sensitive details. Evaluating how effectively MLLMs can forget such information (targeted unlearning) necessitates the creation of high-quality, well-annotated image-text pairs. While prior work on unlearning has focused on text, multimodal unlearning remains underexplored. To address this gap, we first introduce a multimodal unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as an attack-and-defense framework to evaluate methods for deleting specific multimodal knowledge from MLLMs. We extend a visual question-answering dataset using an automated pipeline that generates varying-proximity samples for testing generalization and specificity, followed by manual filtering for maintaining high quality. We then evaluate six defense objectives against seven attacks (four whitebox, three blackbox), including a novel whitebox method leveraging interpretability of hidden states. Our results show multimodal attacks outperform text- or image-only ones, and that the most effective defense removes answer information from internal model states. Additionally, larger models exhibit greater post-editing robustness, suggesting that scale enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing unlearning in MLLMs.

Summary

AI-Generated Summary

PDF21May 6, 2025