視覚言語モデルの保護:摂動ベース攻撃におけるガウシアンノイズへの脆弱性の軽減
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks
April 2, 2025
著者: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI
要旨
ビジョン・ランゲージモデル(VLMs)は、大規模言語モデル(LLMs)の能力を視覚情報の統合によって拡張するが、特にノイズや破損した画像を処理する際に、ジャイルブレイク攻撃に対して脆弱なままである。既存のVLMsは、そのような攻撃を緩和するためにトレーニング中にセキュリティ対策を採用しているが、ノイズ増強された視覚入力に関連する脆弱性は見過ごされている。本研究では、ノイズ増強トレーニングの欠如が重大なセキュリティギャップを引き起こすことを明らかにした:多くのVLMsは、ガウシアンノイズのような単純な摂動に対しても脆弱である。この課題に対処するため、我々はRobust-VLGuardを提案する。これは、整合/非整合の画像-テキストペアを組み合わせたマルチモーダルセーフティデータセットであり、ノイズ増強ファインチューニングを組み合わせることで、VLMの機能を維持しながら攻撃成功率を低減する。さらに、最適化ベースの視覚的摂動攻撃に対しては、DiffPure-VLMを提案する。これは、拡散モデルを活用して敵対的摂動をガウシアンライクなノイズに変換し、ノイズ増強セーフティファインチューニングを施したVLMsによって防御可能にする。実験結果は、拡散モデルの分布シフト特性が、我々のファインチューニングされたVLMsとよく整合し、様々な強度の敵対的摂動を大幅に緩和することを示している。データセットとコードはhttps://github.com/JarvisUSTC/DiffPure-RobustVLMで公開されている。
English
Vision-Language Models (VLMs) extend the capabilities of Large Language
Models (LLMs) by incorporating visual information, yet they remain vulnerable
to jailbreak attacks, especially when processing noisy or corrupted images.
Although existing VLMs adopt security measures during training to mitigate such
attacks, vulnerabilities associated with noise-augmented visual inputs are
overlooked. In this work, we identify that missing noise-augmented training
causes critical security gaps: many VLMs are susceptible to even simple
perturbations such as Gaussian noise. To address this challenge, we propose
Robust-VLGuard, a multimodal safety dataset with aligned / misaligned
image-text pairs, combined with noise-augmented fine-tuning that reduces attack
success rates while preserving functionality of VLM. For stronger
optimization-based visual perturbation attacks, we propose DiffPure-VLM,
leveraging diffusion models to convert adversarial perturbations into
Gaussian-like noise, which can be defended by VLMs with noise-augmented safety
fine-tuning. Experimental results demonstrate that the distribution-shifting
property of diffusion model aligns well with our fine-tuned VLMs, significantly
mitigating adversarial perturbations across varying intensities. The dataset
and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.Summary
AI-Generated Summary