ChatPaper.aiChatPaper

VLSBench : Révéler les Fuites Visuelles dans la Sécurité Multimodale

VLSBench: Unveiling Visual Leakage in Multimodal Safety

November 29, 2024
Auteurs: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
cs.AI

Résumé

Les préoccupations en matière de sécurité des grands modèles de langage multimodaux (MLLM) sont progressivement devenues un problème important dans diverses applications. De manière surprenante, des travaux antérieurs indiquent un phénomène contre-intuitif selon lequel l'utilisation du désapprentissage textuel pour aligner les MLLM permet d'obtenir des performances de sécurité comparables à celles des MLLM entraînés avec des paires image-texte. Pour expliquer un tel phénomène contre-intuitif, nous découvrons un problème de fuite d'informations de sécurité visuelle (VSIL) dans les benchmarks de sécurité multimodaux existants, c'est-à-dire que le contenu potentiellement risqué et sensible dans l'image a été révélé dans la requête textuelle. De cette manière, les MLLM peuvent facilement refuser ces requêtes texte-image sensibles en fonction des requêtes textuelles. Cependant, les paires image-texte sans VSIL sont courantes dans les scénarios du monde réel et sont négligées par les benchmarks de sécurité multimodaux existants. À cette fin, nous avons construit un benchmark de sécurité visuelle multimodal sans fuite (VLSBench) empêchant la fuite de sécurité visuelle de l'image à la requête textuelle avec 2,4k paires image-texte. Les résultats expérimentaux indiquent que VLSBench pose un défi significatif à la fois pour les MLLM open-source et close-source, y compris LLaVA, Qwen2-VL, Llama3.2-Vision et GPT-4o. Cette étude démontre que l'alignement textuel est suffisant pour les scénarios de sécurité multimodaux avec VSIL, tandis que l'alignement multimodal est une solution plus prometteuse pour les scénarios de sécurité multimodaux sans VSIL. Veuillez consulter notre code et nos données sur : http://hxhcreate.github.io/VLSBench
English
Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: http://hxhcreate.github.io/VLSBench

Summary

AI-Generated Summary

PDF102December 3, 2024