ChatPaper.aiChatPaper

Schutz von Vision-Sprache-Modellen: Minderung der Anfälligkeit gegenüber Gaußschem Rauschen bei störungsbasierten Angriffen

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

April 2, 2025
Autoren: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI

Zusammenfassung

Vision-Language Models (VLMs) erweitern die Fähigkeiten von Large Language Models (LLMs), indem sie visuelle Informationen einbeziehen, bleiben jedoch anfällig für Jailbreak-Angriffe, insbesondere bei der Verarbeitung von verrauschten oder beschädigten Bildern. Obwohl bestehende VLMs während des Trainings Sicherheitsmaßnahmen ergreifen, um solche Angriffe zu mindern, werden Schwachstellen im Zusammenhang mit rauschverstärkten visuellen Eingaben übersehen. In dieser Arbeit zeigen wir, dass das Fehlen von rauschverstärktem Training kritische Sicherheitslücken verursacht: Viele VLMs sind bereits gegenüber einfachen Störungen wie Gaußschem Rauschen anfällig. Um diese Herausforderung zu bewältigen, schlagen wir Robust-VLGuard vor, einen multimodalen Sicherheitsdatensatz mit ausgerichteten/nicht ausgerichteten Bild-Text-Paaren, kombiniert mit rauschverstärktem Fine-Tuning, das die Angriffserfolgsraten reduziert, während die Funktionalität der VLMs erhalten bleibt. Für stärkere optimierungsbasierte visuelle Störungsangriffe schlagen wir DiffPure-VLM vor, das Diffusionsmodelle nutzt, um adversariale Störungen in gaußähnliches Rauschen umzuwandeln, das von VLMs mit rauschverstärktem Sicherheits-Fine-Tuning abgewehrt werden kann. Experimentelle Ergebnisse zeigen, dass die verteilungsverschiebende Eigenschaft des Diffusionsmodells gut mit unseren feinabgestimmten VLMs übereinstimmt und adversariale Störungen über verschiedene Intensitäten hinweg signifikant mindert. Der Datensatz und der Code sind unter https://github.com/JarvisUSTC/DiffPure-RobustVLM verfügbar.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language Models (LLMs) by incorporating visual information, yet they remain vulnerable to jailbreak attacks, especially when processing noisy or corrupted images. Although existing VLMs adopt security measures during training to mitigate such attacks, vulnerabilities associated with noise-augmented visual inputs are overlooked. In this work, we identify that missing noise-augmented training causes critical security gaps: many VLMs are susceptible to even simple perturbations such as Gaussian noise. To address this challenge, we propose Robust-VLGuard, a multimodal safety dataset with aligned / misaligned image-text pairs, combined with noise-augmented fine-tuning that reduces attack success rates while preserving functionality of VLM. For stronger optimization-based visual perturbation attacks, we propose DiffPure-VLM, leveraging diffusion models to convert adversarial perturbations into Gaussian-like noise, which can be defended by VLMs with noise-augmented safety fine-tuning. Experimental results demonstrate that the distribution-shifting property of diffusion model aligns well with our fine-tuned VLMs, significantly mitigating adversarial perturbations across varying intensities. The dataset and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.

Summary

AI-Generated Summary

PDF132April 3, 2025