QGuard: Вопросно-ориентированная защита с нулевым обучением для обеспечения безопасности многомодальных языковых моделей
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety
June 14, 2025
Авторы: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей (LLM) оказали значительное влияние на широкий спектр областей, от общих до специализированных. Однако эти достижения также значительно увеличили вероятность того, что злоумышленники смогут использовать вредоносные и "взломанные" запросы для проведения атак. Несмотря на множество усилий, направленных на предотвращение вредоносных и взломанных запросов, защита LLM от таких атак остается важной и сложной задачей. В данной статье мы предлагаем QGuard — простой, но эффективный метод защиты, который использует запросы в форме вопросов для блокировки вредоносных запросов в режиме "zero-shot". Наш метод способен защищать LLM не только от текстовых вредоносных запросов, но и от мультимодальных атак. Более того, за счет разнообразия и модификации защитных вопросов наш подход остается устойчивым к новейшим вредоносным запросам без необходимости тонкой настройки. Экспериментальные результаты показывают, что наша модель демонстрирует конкурентоспособные результаты как на текстовых, так и на мультимодальных наборах данных с вредоносными запросами. Кроме того, предоставляя анализ запросов в форме вопросов, мы позволяем проводить "белый ящик" анализа пользовательских вводов. Мы считаем, что наш метод предлагает ценные идеи для реальных сервисов LLM в снижении рисков безопасности, связанных с вредоносными запросами.
English
The recent advancements in Large Language Models(LLMs) have had a significant
impact on a wide range of fields, from general domains to specialized areas.
However, these advancements have also significantly increased the potential for
malicious users to exploit harmful and jailbreak prompts for malicious attacks.
Although there have been many efforts to prevent harmful prompts and jailbreak
prompts, protecting LLMs from such malicious attacks remains an important and
challenging task. In this paper, we propose QGuard, a simple yet effective
safety guard method, that utilizes question prompting to block harmful prompts
in a zero-shot manner. Our method can defend LLMs not only from text-based
harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by
diversifying and modifying guard questions, our approach remains robust against
the latest harmful prompts without fine-tuning. Experimental results show that
our model performs competitively on both text-only and multi-modal harmful
datasets. Additionally, by providing an analysis of question prompting, we
enable a white-box analysis of user inputs. We believe our method provides
valuable insights for real-world LLM services in mitigating security risks
associated with harmful prompts.