Protéger les modèles vision-langage : Atténuer les vulnérabilités face au bruit gaussien dans les attaques basées sur les perturbations
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks
April 2, 2025
Auteurs: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI
Résumé
Les modèles vision-langage (VLMs) étendent les capacités des grands modèles de langage (LLMs) en intégrant des informations visuelles, mais ils restent vulnérables aux attaques de contournement, en particulier lors du traitement d'images bruitées ou corrompues. Bien que les VLMs existants adoptent des mesures de sécurité pendant l'entraînement pour atténuer de telles attaques, les vulnérabilités associées aux entrées visuelles augmentées par du bruit sont négligées. Dans ce travail, nous identifions que l'absence d'entraînement avec augmentation de bruit crée des lacunes critiques en matière de sécurité : de nombreux VLMs sont sensibles à des perturbations simples, comme le bruit gaussien. Pour relever ce défi, nous proposons Robust-VLGuard, un ensemble de données de sécurité multimodale avec des paires image-texte alignées / non alignées, combiné à un affinage avec augmentation de bruit qui réduit les taux de réussite des attaques tout en préservant la fonctionnalité du VLM. Pour les attaques par perturbation visuelle basées sur l'optimisation, nous proposons DiffPure-VLM, exploitant les modèles de diffusion pour convertir les perturbations adverses en un bruit de type gaussien, qui peut être défendu par les VLMs avec un affinage de sécurité augmenté par du bruit. Les résultats expérimentaux montrent que la propriété de décalage de distribution du modèle de diffusion s'aligne bien avec nos VLMs affinés, atténuant significativement les perturbations adverses à différentes intensités. L'ensemble de données et le code sont disponibles à l'adresse https://github.com/JarvisUSTC/DiffPure-RobustVLM.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language
Models (LLMs) by incorporating visual information, yet they remain vulnerable
to jailbreak attacks, especially when processing noisy or corrupted images.
Although existing VLMs adopt security measures during training to mitigate such
attacks, vulnerabilities associated with noise-augmented visual inputs are
overlooked. In this work, we identify that missing noise-augmented training
causes critical security gaps: many VLMs are susceptible to even simple
perturbations such as Gaussian noise. To address this challenge, we propose
Robust-VLGuard, a multimodal safety dataset with aligned / misaligned
image-text pairs, combined with noise-augmented fine-tuning that reduces attack
success rates while preserving functionality of VLM. For stronger
optimization-based visual perturbation attacks, we propose DiffPure-VLM,
leveraging diffusion models to convert adversarial perturbations into
Gaussian-like noise, which can be defended by VLMs with noise-augmented safety
fine-tuning. Experimental results demonstrate that the distribution-shifting
property of diffusion model aligns well with our fine-tuned VLMs, significantly
mitigating adversarial perturbations across varying intensities. The dataset
and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.Summary
AI-Generated Summary