ChatPaper.aiChatPaper

Protegendo Modelos Visão-Linguagem: Mitigando Vulnerabilidades ao Ruído Gaussiano em Ataques Baseados em Perturbação

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

April 2, 2025
Autores: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI

Resumo

Os Modelos de Visão-Linguagem (VLMs) ampliam as capacidades dos Modelos de Linguagem de Grande Escala (LLMs) ao incorporar informações visuais, mas ainda permanecem vulneráveis a ataques de jailbreak, especialmente ao processar imagens ruidosas ou corrompidas. Embora os VLMs existentes adotem medidas de segurança durante o treinamento para mitigar tais ataques, as vulnerabilidades associadas a entradas visuais aumentadas com ruído são negligenciadas. Neste trabalho, identificamos que a ausência de treinamento aumentado com ruído causa lacunas críticas de segurança: muitos VLMs são suscetíveis até mesmo a perturbações simples, como ruído gaussiano. Para enfrentar esse desafio, propomos o Robust-VLGuard, um conjunto de dados de segurança multimodal com pares imagem-texto alinhados/desalinhados, combinado com um ajuste fino aumentado com ruído que reduz as taxas de sucesso de ataques enquanto preserva a funcionalidade do VLM. Para ataques de perturbação visual baseados em otimização mais robustos, propomos o DiffPure-VLM, que aproveita modelos de difusão para converter perturbações adversariais em ruído semelhante ao gaussiano, que pode ser defendido por VLMs com ajuste fino de segurança aumentado com ruído. Os resultados experimentais demonstram que a propriedade de mudança de distribuição do modelo de difusão se alinha bem com nossos VLMs ajustados, mitigando significativamente perturbações adversariais em várias intensidades. O conjunto de dados e o código estão disponíveis em https://github.com/JarvisUSTC/DiffPure-RobustVLM.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language Models (LLMs) by incorporating visual information, yet they remain vulnerable to jailbreak attacks, especially when processing noisy or corrupted images. Although existing VLMs adopt security measures during training to mitigate such attacks, vulnerabilities associated with noise-augmented visual inputs are overlooked. In this work, we identify that missing noise-augmented training causes critical security gaps: many VLMs are susceptible to even simple perturbations such as Gaussian noise. To address this challenge, we propose Robust-VLGuard, a multimodal safety dataset with aligned / misaligned image-text pairs, combined with noise-augmented fine-tuning that reduces attack success rates while preserving functionality of VLM. For stronger optimization-based visual perturbation attacks, we propose DiffPure-VLM, leveraging diffusion models to convert adversarial perturbations into Gaussian-like noise, which can be defended by VLMs with noise-augmented safety fine-tuning. Experimental results demonstrate that the distribution-shifting property of diffusion model aligns well with our fine-tuned VLMs, significantly mitigating adversarial perturbations across varying intensities. The dataset and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.

Summary

AI-Generated Summary

PDF132April 3, 2025