ChatPaper.aiChatPaper

VLMGuard : Protéger les VLM contre les invites malveillantes via des données non étiquetées

VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data

October 1, 2024
Auteurs: Xuefeng Du, Reshmi Ghosh, Robert Sim, Ahmed Salem, Vitor Carvalho, Emily Lawton, Yixuan Li, Jack W. Stokes
cs.AI

Résumé

Les modèles vision-langage (VLM), essentiels pour la compréhension contextuelle des informations visuelles et textuelles, sont vulnérables aux entrées manipulées de manière adversaire, ce qui présente des risques importants. Cela peut compromettre les résultats et susciter des inquiétudes quant à la fiabilité des applications intégrant des VLM. La détection de ces prompts malveillants est donc cruciale pour maintenir la confiance dans les générations de VLM. Un défi majeur dans le développement d'un classificateur de prompts de protection est le manque de données étiquetées en grande quantité, qu'elles soient bénignes ou malveillantes. Pour résoudre ce problème, nous introduisons VLMGuard, un nouveau cadre d'apprentissage qui exploite les prompts non étiquetés des utilisateurs dans la nature pour détecter les prompts malveillants. Ces prompts non étiquetés, qui apparaissent naturellement lorsque les VLM sont déployés dans le monde réel, contiennent à la fois des informations bénignes et malveillantes. Pour exploiter ces données non étiquetées, nous présentons un score d'estimation de la malveillance automatisé pour distinguer les échantillons bénins des échantillons malveillants au sein de ce mélange non étiqueté, permettant ainsi l'entraînement d'un classificateur de prompts binaire. Notamment, notre cadre ne nécessite pas de annotations humaines supplémentaires, offrant une grande flexibilité et praticité pour les applications du monde réel. Des expériences approfondies montrent que VLMGuard obtient des résultats de détection supérieurs, surpassant significativement les méthodes de pointe. Avertissement : Cet article peut contenir des exemples offensants ; la discrétion du lecteur est recommandée.
English
Vision-language models (VLMs) are essential for contextual understanding of both visual and textual information. However, their vulnerability to adversarially manipulated inputs presents significant risks, leading to compromised outputs and raising concerns about the reliability in VLM-integrated applications. Detecting these malicious prompts is thus crucial for maintaining trust in VLM generations. A major challenge in developing a safeguarding prompt classifier is the lack of a large amount of labeled benign and malicious data. To address the issue, we introduce VLMGuard, a novel learning framework that leverages the unlabeled user prompts in the wild for malicious prompt detection. These unlabeled prompts, which naturally arise when VLMs are deployed in the open world, consist of both benign and malicious information. To harness the unlabeled data, we present an automated maliciousness estimation score for distinguishing between benign and malicious samples within this unlabeled mixture, thereby enabling the training of a binary prompt classifier on top. Notably, our framework does not require extra human annotations, offering strong flexibility and practicality for real-world applications. Extensive experiment shows VLMGuard achieves superior detection results, significantly outperforming state-of-the-art methods. Disclaimer: This paper may contain offensive examples; reader discretion is advised.

Summary

AI-Generated Summary

PDF52November 16, 2024