ChatPaper.aiChatPaper

VLSBench: Revelando la Fuga Visual en la Seguridad Multimodal

VLSBench: Unveiling Visual Leakage in Multimodal Safety

November 29, 2024
Autores: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
cs.AI

Resumen

Las preocupaciones de seguridad de los Modelos de Lenguaje Multimodales Grandes (MLLMs, por sus siglas en inglés) han ido adquiriendo gradualmente importancia en diversas aplicaciones. Sorprendentemente, trabajos anteriores indican un fenómeno contra intuitivo en el que el desaprendizaje textual para alinear MLLMs logra un rendimiento de seguridad comparable con MLLMs entrenados con pares de imagen-texto. Para explicar tal fenómeno contra intuitivo, descubrimos un problema de fuga de información visual de seguridad (VSIL, por sus siglas en inglés) en los benchmarks de seguridad multimodales existentes, es decir, el contenido potencialmente arriesgado y sensible en la imagen se ha revelado en la consulta textual. De esta manera, los MLLMs pueden rechazar fácilmente estas consultas sensibles de texto-imagen de acuerdo a las consultas textuales. Sin embargo, los pares de imagen-texto sin VSIL son comunes en escenarios del mundo real y son pasados por alto por los benchmarks de seguridad multimodales existentes. Con este fin, construimos un benchmark de seguridad visual multimodal sin fugas (VLSBench) que evita la fuga de seguridad visual de la imagen a la consulta textual con 2.4k pares de imagen-texto. Los resultados experimentales indican que VLSBench plantea un desafío significativo tanto para MLLMs de código abierto como de código cerrado, incluyendo LLaVA, Qwen2-VL, Llama3.2-Vision y GPT-4o. Este estudio demuestra que el alineamiento textual es suficiente para escenarios de seguridad multimodal con VSIL, mientras que el alineamiento multimodal es una solución más prometedora para escenarios de seguridad multimodal sin VSIL. Por favor, consulte nuestro código y datos en: http://hxhcreate.github.io/VLSBench
English
Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: http://hxhcreate.github.io/VLSBench

Summary

AI-Generated Summary

PDF102December 3, 2024