ChatPaper.aiChatPaper

QGuard : Protection Zero-shot basée sur les questions pour la sécurité des LLM multi-modaux

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

June 14, 2025
papers.authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
cs.AI

papers.abstract

Les récents progrès des modèles de langage de grande taille (LLMs) ont eu un impact significatif sur un large éventail de domaines, des domaines généraux aux domaines spécialisés. Cependant, ces avancées ont également considérablement augmenté le potentiel pour les utilisateurs malveillants d'exploiter des invites nuisibles et des jailbreaks pour des attaques malveillantes. Bien que de nombreux efforts aient été déployés pour prévenir les invites nuisibles et les jailbreaks, protéger les LLMs contre de telles attaques malveillantes reste une tâche importante et difficile. Dans cet article, nous proposons QGuard, une méthode de protection simple mais efficace, qui utilise l'invitation par questions pour bloquer les invites nuisibles de manière zero-shot. Notre méthode peut défendre les LLMs non seulement contre les invites nuisibles basées sur le texte, mais aussi contre les attaques d'invites nuisibles multimodales. De plus, en diversifiant et en modifiant les questions de protection, notre approche reste robuste contre les dernières invites nuisibles sans nécessiter de fine-tuning. Les résultats expérimentaux montrent que notre modèle performe de manière compétitive sur les ensembles de données nuisibles textuels et multimodaux. En outre, en fournissant une analyse de l'invitation par questions, nous permettons une analyse en boîte blanche des entrées utilisateur. Nous croyons que notre méthode offre des perspectives précieuses pour les services LLM dans le monde réel afin d'atténuer les risques de sécurité associés aux invites nuisibles.
English
The recent advancements in Large Language Models(LLMs) have had a significant impact on a wide range of fields, from general domains to specialized areas. However, these advancements have also significantly increased the potential for malicious users to exploit harmful and jailbreak prompts for malicious attacks. Although there have been many efforts to prevent harmful prompts and jailbreak prompts, protecting LLMs from such malicious attacks remains an important and challenging task. In this paper, we propose QGuard, a simple yet effective safety guard method, that utilizes question prompting to block harmful prompts in a zero-shot manner. Our method can defend LLMs not only from text-based harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by diversifying and modifying guard questions, our approach remains robust against the latest harmful prompts without fine-tuning. Experimental results show that our model performs competitively on both text-only and multi-modal harmful datasets. Additionally, by providing an analysis of question prompting, we enable a white-box analysis of user inputs. We believe our method provides valuable insights for real-world LLM services in mitigating security risks associated with harmful prompts.
PDF32June 17, 2025