Защита моделей "визуальный язык": снижение уязвимостей к гауссовскому шуму в атаках на основе возмущений
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks
April 2, 2025
Авторы: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), расширяют возможности крупных языковых моделей (Large Language Models, LLMs), интегрируя визуальную информацию, однако они остаются уязвимыми к атакам jailbreak, особенно при обработке зашумленных или поврежденных изображений. Хотя существующие VLMs используют меры безопасности в процессе обучения для смягчения таких атак, уязвимости, связанные с визуальными данными, усиленными шумом, остаются без внимания. В данной работе мы выявляем, что отсутствие обучения с использованием шума приводит к критическим пробелам в безопасности: многие VLMs подвержены даже простым искажениям, таким как гауссовский шум. Для решения этой проблемы мы предлагаем Robust-VLGuard — мультимодальный набор данных для безопасности, содержащий согласованные / несогласованные пары изображение-текст, в сочетании с тонкой настройкой, усиленной шумом, которая снижает успешность атак, сохраняя функциональность VLM. Для более сильных атак на основе оптимизационных визуальных искажений мы предлагаем DiffPure-VLM, используя диффузионные модели для преобразования враждебных искажений в гауссовский шум, который может быть защищен VLMs с тонкой настройкой безопасности, усиленной шумом. Экспериментальные результаты показывают, что свойство сдвига распределения диффузионной модели хорошо согласуется с нашими тонко настроенными VLMs, значительно смягчая враждебные искажения различной интенсивности. Набор данных и код доступны по адресу https://github.com/JarvisUSTC/DiffPure-RobustVLM.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language
Models (LLMs) by incorporating visual information, yet they remain vulnerable
to jailbreak attacks, especially when processing noisy or corrupted images.
Although existing VLMs adopt security measures during training to mitigate such
attacks, vulnerabilities associated with noise-augmented visual inputs are
overlooked. In this work, we identify that missing noise-augmented training
causes critical security gaps: many VLMs are susceptible to even simple
perturbations such as Gaussian noise. To address this challenge, we propose
Robust-VLGuard, a multimodal safety dataset with aligned / misaligned
image-text pairs, combined with noise-augmented fine-tuning that reduces attack
success rates while preserving functionality of VLM. For stronger
optimization-based visual perturbation attacks, we propose DiffPure-VLM,
leveraging diffusion models to convert adversarial perturbations into
Gaussian-like noise, which can be defended by VLMs with noise-augmented safety
fine-tuning. Experimental results demonstrate that the distribution-shifting
property of diffusion model aligns well with our fine-tuned VLMs, significantly
mitigating adversarial perturbations across varying intensities. The dataset
and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.Summary
AI-Generated Summary