QGuard: Vraaggebaseerde Zero-shot Beveiliging voor Veiligheid van Multi-modale LLM's
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety
June 14, 2025
Auteurs: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
cs.AI
Samenvatting
De recente vooruitgang in Grote Taalmodellen (LLMs) heeft een aanzienlijke impact gehad op een breed scala aan vakgebieden, van algemene domeinen tot gespecialiseerde gebieden. Deze vooruitgang heeft echter ook het potentieel aanzienlijk vergroot voor kwaadwillende gebruikers om schadelijke en jailbreak-prompts te misbruiken voor kwaadaardige aanvallen. Hoewel er veel inspanningen zijn geleverd om schadelijke prompts en jailbreak-prompts te voorkomen, blijft het beschermen van LLMs tegen dergelijke kwaadaardige aanvallen een belangrijke en uitdagende taak. In dit artikel stellen we QGuard voor, een eenvoudige maar effectieve veiligheidsmethode die gebruikmaakt van vraagprompting om schadelijke prompts op een zero-shot-manier te blokkeren. Onze methode kan LLMs niet alleen verdedigen tegen tekstgebaseerde schadelijke prompts, maar ook tegen multi-modale schadelijke promptaanvallen. Bovendien blijft onze aanpak robuust tegen de nieuwste schadelijke prompts zonder fine-tuning door het diversifiëren en aanpassen van beveiligingsvragen. Experimentele resultaten tonen aan dat ons model competitief presteert op zowel tekstuele als multi-modale schadelijke datasets. Daarnaast maken we door een analyse van vraagprompting een white-box-analyse van gebruikersinvoer mogelijk. Wij geloven dat onze methode waardevolle inzichten biedt voor real-world LLM-diensten bij het beperken van beveiligingsrisico's die gepaard gaan met schadelijke prompts.
English
The recent advancements in Large Language Models(LLMs) have had a significant
impact on a wide range of fields, from general domains to specialized areas.
However, these advancements have also significantly increased the potential for
malicious users to exploit harmful and jailbreak prompts for malicious attacks.
Although there have been many efforts to prevent harmful prompts and jailbreak
prompts, protecting LLMs from such malicious attacks remains an important and
challenging task. In this paper, we propose QGuard, a simple yet effective
safety guard method, that utilizes question prompting to block harmful prompts
in a zero-shot manner. Our method can defend LLMs not only from text-based
harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by
diversifying and modifying guard questions, our approach remains robust against
the latest harmful prompts without fine-tuning. Experimental results show that
our model performs competitively on both text-only and multi-modal harmful
datasets. Additionally, by providing an analysis of question prompting, we
enable a white-box analysis of user inputs. We believe our method provides
valuable insights for real-world LLM services in mitigating security risks
associated with harmful prompts.