ChatPaper.aiChatPaper

VLSBench: Revelando Vazamentos Visuais na Segurança Multimodal

VLSBench: Unveiling Visual Leakage in Multimodal Safety

November 29, 2024
Autores: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
cs.AI

Resumo

As preocupações com a segurança dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) gradualmente se tornaram um problema importante em várias aplicações. Surpreendentemente, trabalhos anteriores indicam um fenômeno contra-intuitivo de que o desaprendizado textual para alinhar MLLMs alcança desempenhos de segurança comparáveis aos MLLMs treinados com pares de imagem-texto. Para explicar tal fenômeno contra-intuitivo, descobrimos um problema de vazamento de informações visuais de segurança (VSIL) em benchmarks de segurança multimodais existentes, ou seja, o conteúdo potencialmente arriscado e sensível na imagem foi revelado na consulta textual. Dessa forma, os MLLMs podem facilmente recusar essas consultas sensíveis de texto-imagem de acordo com as consultas textuais. No entanto, pares de imagem-texto sem VSIL são comuns em cenários do mundo real e são ignorados pelos benchmarks de segurança multimodais existentes. Para isso, construímos o benchmark de segurança multimodal visual sem vazamento (VLSBench) impedindo o vazamento de segurança visual da imagem para a consulta textual com 2,4 mil pares de imagem-texto. Os resultados experimentais indicam que o VLSBench representa um desafio significativo tanto para MLLMs de código aberto quanto de código fechado, incluindo LLaVA, Qwen2-VL, Llama3.2-Vision e GPT-4o. Este estudo demonstra que o alinhamento textual é suficiente para cenários de segurança multimodal com VSIL, enquanto o alinhamento multimodal é uma solução mais promissora para cenários de segurança multimodal sem VSIL. Por favor, consulte nosso código e dados em: http://hxhcreate.github.io/VLSBench
English
Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: http://hxhcreate.github.io/VLSBench

Summary

AI-Generated Summary

PDF102December 3, 2024