ChatPaper.aiChatPaper

Beveiliging van Vision-Language Modellen: Het Verminderen van Kwetsbaarheden voor Gaussische Ruis in Perturbatie-gebaseerde Aanvallen

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

April 2, 2025
Auteurs: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI

Samenvatting

Vision-Language Models (VLMs) breiden de mogelijkheden van Large Language Models (LLMs) uit door visuele informatie te integreren, maar ze blijven kwetsbaar voor jailbreak-aanvallen, vooral bij het verwerken van ruisachtige of beschadigde afbeeldingen. Hoewel bestaande VLMs tijdens de training beveiligingsmaatregelen nemen om dergelijke aanvallen te beperken, worden kwetsbaarheden geassocieerd met ruis-augmented visuele invoer over het hoofd gezien. In dit werk identificeren we dat het ontbreken van ruis-augmented training kritieke beveiligingslekken veroorzaakt: veel VLMs zijn vatbaar voor zelfs eenvoudige verstoringen zoals Gaussische ruis. Om deze uitdaging aan te pakken, stellen we Robust-VLGuard voor, een multimodale veiligheidsdataset met uitgelijnde / niet-uitgelijnde afbeelding-tekst paren, gecombineerd met ruis-augmented fine-tuning die de aanvalssuccespercentages verlaagt terwijl de functionaliteit van de VLM behouden blijft. Voor sterkere op optimalisatie gebaseerde visuele verstoringsaanvallen stellen we DiffPure-VLM voor, waarbij we diffusiemodellen gebruiken om adversariële verstoringen om te zetten in Gaussische ruis, die kan worden verdedigd door VLMs met ruis-augmented veiligheidsfine-tuning. Experimentele resultaten tonen aan dat de distributieverschuivende eigenschap van het diffusiemodel goed aansluit bij onze fine-tuned VLMs, wat adversariële verstoringen over verschillende intensiteiten aanzienlijk vermindert. De dataset en code zijn beschikbaar op https://github.com/JarvisUSTC/DiffPure-RobustVLM.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language Models (LLMs) by incorporating visual information, yet they remain vulnerable to jailbreak attacks, especially when processing noisy or corrupted images. Although existing VLMs adopt security measures during training to mitigate such attacks, vulnerabilities associated with noise-augmented visual inputs are overlooked. In this work, we identify that missing noise-augmented training causes critical security gaps: many VLMs are susceptible to even simple perturbations such as Gaussian noise. To address this challenge, we propose Robust-VLGuard, a multimodal safety dataset with aligned / misaligned image-text pairs, combined with noise-augmented fine-tuning that reduces attack success rates while preserving functionality of VLM. For stronger optimization-based visual perturbation attacks, we propose DiffPure-VLM, leveraging diffusion models to convert adversarial perturbations into Gaussian-like noise, which can be defended by VLMs with noise-augmented safety fine-tuning. Experimental results demonstrate that the distribution-shifting property of diffusion model aligns well with our fine-tuned VLMs, significantly mitigating adversarial perturbations across varying intensities. The dataset and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.

Summary

AI-Generated Summary

PDF132April 3, 2025