Protección de Modelos Visión-Lenguaje: Mitigación de Vulnerabilidades al Ruido Gaussiano en Ataques Basados en Perturbaciones
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks
April 2, 2025
Autores: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) amplían las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs) al incorporar información visual, pero siguen siendo vulnerables a ataques de jailbreak, especialmente al procesar imágenes ruidosas o corruptas. Aunque los VLMs existentes adoptan medidas de seguridad durante el entrenamiento para mitigar dichos ataques, se pasan por alto las vulnerabilidades asociadas con entradas visuales aumentadas con ruido. En este trabajo, identificamos que la falta de entrenamiento aumentado con ruido genera brechas de seguridad críticas: muchos VLMs son susceptibles incluso a perturbaciones simples como el ruido gaussiano. Para abordar este desafío, proponemos Robust-VLGuard, un conjunto de datos de seguridad multimodal con pares de imagen-texto alineados/desalineados, combinado con un ajuste fino aumentado con ruido que reduce las tasas de éxito de los ataques mientras preserva la funcionalidad del VLM. Para ataques de perturbación visual basados en optimización más fuertes, proponemos DiffPure-VLM, aprovechando modelos de difusión para convertir perturbaciones adversarias en ruido de tipo gaussiano, que puede ser defendido por VLMs con ajuste fino de seguridad aumentado con ruido. Los resultados experimentales demuestran que la propiedad de cambio de distribución del modelo de difusión se alinea bien con nuestros VLMs ajustados, mitigando significativamente las perturbaciones adversarias en diversas intensidades. El conjunto de datos y el código están disponibles en https://github.com/JarvisUSTC/DiffPure-RobustVLM.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language
Models (LLMs) by incorporating visual information, yet they remain vulnerable
to jailbreak attacks, especially when processing noisy or corrupted images.
Although existing VLMs adopt security measures during training to mitigate such
attacks, vulnerabilities associated with noise-augmented visual inputs are
overlooked. In this work, we identify that missing noise-augmented training
causes critical security gaps: many VLMs are susceptible to even simple
perturbations such as Gaussian noise. To address this challenge, we propose
Robust-VLGuard, a multimodal safety dataset with aligned / misaligned
image-text pairs, combined with noise-augmented fine-tuning that reduces attack
success rates while preserving functionality of VLM. For stronger
optimization-based visual perturbation attacks, we propose DiffPure-VLM,
leveraging diffusion models to convert adversarial perturbations into
Gaussian-like noise, which can be defended by VLMs with noise-augmented safety
fine-tuning. Experimental results demonstrate that the distribution-shifting
property of diffusion model aligns well with our fine-tuned VLMs, significantly
mitigating adversarial perturbations across varying intensities. The dataset
and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.Summary
AI-Generated Summary