ChatPaper.aiChatPaper

시각-언어 모델 보호: 가우시안 잡음 기반 교란 공격에 대한 취약성 완화

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

April 2, 2025
저자: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI

초록

비전-언어 모델(VLMs)은 대규모 언어 모델(LLMs)의 기능을 시각 정보를 통합하여 확장하지만, 특히 노이즈가 있거나 손상된 이미지를 처리할 때 탈옥(jailbreak) 공격에 취약합니다. 기존 VLMs는 이러한 공격을 완화하기 위해 학습 과정에서 보안 조치를 채택하고 있지만, 노이즈가 추가된 시각적 입력과 관련된 취약점은 간과되고 있습니다. 본 연구에서는 노이즈가 추가된 학습이 누락됨으로써 중요한 보안 격차가 발생함을 확인했습니다: 많은 VLMs가 가우시안 노이즈와 같은 간단한 섭동에도 취약합니다. 이러한 문제를 해결하기 위해, 우리는 Robust-VLGuard를 제안합니다. 이는 정렬/비정렬된 이미지-텍스트 쌍으로 구성된 멀티모달 안전 데이터셋과, 공격 성공률을 줄이면서 VLM의 기능을 보존하는 노이즈가 추가된 미세 조정(fine-tuning)을 결합한 것입니다. 더 강력한 최적화 기반 시각적 섭동 공격에 대해서는, 우리는 DiffPure-VLM을 제안합니다. 이는 확산 모델(diffusion model)을 활용하여 적대적 섭동을 가우시안과 유사한 노이즈로 변환하며, 이는 노이즈가 추가된 안전 미세 조정을 통해 VLMs에 의해 방어될 수 있습니다. 실험 결과는 확산 모델의 분포 이동 특성이 우리의 미세 조정된 VLMs와 잘 맞아, 다양한 강도의 적대적 섭동을 크게 완화함을 보여줍니다. 데이터셋과 코드는 https://github.com/JarvisUSTC/DiffPure-RobustVLM에서 확인할 수 있습니다.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language Models (LLMs) by incorporating visual information, yet they remain vulnerable to jailbreak attacks, especially when processing noisy or corrupted images. Although existing VLMs adopt security measures during training to mitigate such attacks, vulnerabilities associated with noise-augmented visual inputs are overlooked. In this work, we identify that missing noise-augmented training causes critical security gaps: many VLMs are susceptible to even simple perturbations such as Gaussian noise. To address this challenge, we propose Robust-VLGuard, a multimodal safety dataset with aligned / misaligned image-text pairs, combined with noise-augmented fine-tuning that reduces attack success rates while preserving functionality of VLM. For stronger optimization-based visual perturbation attacks, we propose DiffPure-VLM, leveraging diffusion models to convert adversarial perturbations into Gaussian-like noise, which can be defended by VLMs with noise-augmented safety fine-tuning. Experimental results demonstrate that the distribution-shifting property of diffusion model aligns well with our fine-tuned VLMs, significantly mitigating adversarial perturbations across varying intensities. The dataset and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.

Summary

AI-Generated Summary

PDF132April 3, 2025