ChatPaper.aiChatPaper

QGuard: Protección Basada en Preguntas de Cero Disparos para la Seguridad de Modelos de Lenguaje Multimodales

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

June 14, 2025
Autores: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han tenido un impacto significativo en una amplia gama de campos, desde dominios generales hasta áreas especializadas. Sin embargo, estos avances también han aumentado considerablemente el potencial de que usuarios malintencionados exploten indicaciones (prompts) dañinas y de jailbreak para realizar ataques maliciosos. Aunque se han realizado muchos esfuerzos para prevenir indicaciones dañinas y de jailbreak, proteger los LLMs de este tipo de ataques maliciosos sigue siendo una tarea importante y desafiante. En este artículo, proponemos QGuard, un método de protección de seguridad simple pero efectivo, que utiliza el prompting de preguntas para bloquear indicaciones dañinas de manera zero-shot. Nuestro método puede defender los LLMs no solo de indicaciones dañinas basadas en texto, sino también de ataques con indicaciones dañinas multimodales. Además, al diversificar y modificar las preguntas de protección, nuestro enfoque se mantiene robusto frente a las últimas indicaciones dañinas sin necesidad de fine-tuning. Los resultados experimentales muestran que nuestro modelo tiene un rendimiento competitivo tanto en conjuntos de datos dañinos de solo texto como multimodales. Adicionalmente, al proporcionar un análisis del prompting de preguntas, permitimos un análisis de caja blanca de las entradas del usuario. Creemos que nuestro método ofrece ideas valiosas para los servicios de LLMs en el mundo real, mitigando los riesgos de seguridad asociados con indicaciones dañinas.
English
The recent advancements in Large Language Models(LLMs) have had a significant impact on a wide range of fields, from general domains to specialized areas. However, these advancements have also significantly increased the potential for malicious users to exploit harmful and jailbreak prompts for malicious attacks. Although there have been many efforts to prevent harmful prompts and jailbreak prompts, protecting LLMs from such malicious attacks remains an important and challenging task. In this paper, we propose QGuard, a simple yet effective safety guard method, that utilizes question prompting to block harmful prompts in a zero-shot manner. Our method can defend LLMs not only from text-based harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by diversifying and modifying guard questions, our approach remains robust against the latest harmful prompts without fine-tuning. Experimental results show that our model performs competitively on both text-only and multi-modal harmful datasets. Additionally, by providing an analysis of question prompting, we enable a white-box analysis of user inputs. We believe our method provides valuable insights for real-world LLM services in mitigating security risks associated with harmful prompts.
PDF22June 17, 2025