ChatPaper.aiChatPaper

VLSBench: Enthüllung visueller Lecks in multimodaler Sicherheit

VLSBench: Unveiling Visual Leakage in Multimodal Safety

November 29, 2024
Autoren: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
cs.AI

Zusammenfassung

Sicherheitsbedenken von Multimodalen großen Sprachmodellen (MLLMs) sind allmählich zu einem wichtigen Problem in verschiedenen Anwendungen geworden. Überraschenderweise deuten frühere Arbeiten auf ein gegenintuitives Phänomen hin, dass die Verwendung des textuellen Vergessens zur Ausrichtung von MLLMs vergleichbare Sicherheitsleistungen mit MLLMs erreicht, die mit Bild-Text-Paaren trainiert wurden. Um ein solches gegenintuitives Phänomen zu erklären, entdecken wir ein Problem des visuellen Sicherheitsinformationslecks (VSIL) in bestehenden multimodalen Sicherheitsbenchmarks, d.h., der potenziell riskante und sensible Inhalt im Bild wurde in der textuellen Abfrage offengelegt. Auf diese Weise können MLLMs diese sensiblen Text-Bild-Abfragen leicht anhand textueller Abfragen ablehnen. Bild-Text-Paare ohne VSIL sind jedoch in realen Szenarien üblich und werden von bestehenden multimodalen Sicherheitsbenchmarks übersehen. Zu diesem Zweck konstruieren wir einen multimodalen visuellen undichtungsfreien Sicherheitsbenchmark (VLSBench), der das visuelle Sicherheitsleck vom Bild zur textuellen Abfrage mit 2,4k Bild-Text-Paaren verhindert. Experimentelle Ergebnisse zeigen, dass VLSBench eine bedeutende Herausforderung für sowohl Open-Source als auch Closed-Source MLLMs darstellt, einschließlich LLaVA, Qwen2-VL, Llama3.2-Vision und GPT-4o. Diese Studie zeigt, dass eine textuelle Ausrichtung für multimodale Sicherheitsszenarien mit VSIL ausreicht, während eine multimodale Ausrichtung eine vielversprechendere Lösung für multimodale Sicherheitsszenarien ohne VSIL darstellt. Bitte sehen Sie sich unseren Code und unsere Daten unter folgendem Link an: http://hxhcreate.github.io/VLSBench
English
Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: http://hxhcreate.github.io/VLSBench

Summary

AI-Generated Summary

PDF102December 3, 2024