QGuard: 다중 모달 LLM 안전을 위한 질문 기반 제로샷 가드
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety
June 14, 2025
저자: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
cs.AI
초록
최근 대규모 언어 모델(LLMs)의 발전은 일반적인 영역부터 전문 분야에 이르기까지 다양한 분야에 상당한 영향을 미쳤습니다. 그러나 이러한 발전은 악의적인 사용자가 유해 프롬프트와 탈옥(jailbreak) 프롬프트를 악성 공격에 활용할 가능성도 크게 증가시켰습니다. 유해 프롬프트와 탈옥 프롬프트를 방지하기 위한 많은 노력이 있었음에도 불구하고, LLMs를 이러한 악성 공격으로부터 보호하는 것은 여전히 중요하면서도 어려운 과제로 남아 있습니다. 본 논문에서는 질문 프롬프팅을 활용하여 제로샷(zero-shot) 방식으로 유해 프롬프트를 차단하는 간단하면서도 효과적인 안전 보호 방법인 QGuard를 제안합니다. 우리의 방법은 텍스트 기반 유해 프롬프트뿐만 아니라 멀티모달 유해 프롬프트 공격으로부터도 LLMs를 방어할 수 있습니다. 또한, 보호 질문을 다양화하고 수정함으로써 최신 유해 프롬프트에 대해 파인튜닝 없이도 강력한 내성을 유지합니다. 실험 결과는 우리의 모델이 텍스트 전용 및 멀티모달 유해 데이터셋 모두에서 경쟁력 있는 성능을 보임을 입증합니다. 추가적으로, 질문 프롬프팅에 대한 분석을 제공함으로써 사용자 입력에 대한 화이트박스 분석을 가능하게 합니다. 우리는 이 방법이 유해 프롬프트와 관련된 보안 위험을 완화하는 데 있어 실용적인 LLM 서비스에 유용한 통찰력을 제공할 것이라 믿습니다.
English
The recent advancements in Large Language Models(LLMs) have had a significant
impact on a wide range of fields, from general domains to specialized areas.
However, these advancements have also significantly increased the potential for
malicious users to exploit harmful and jailbreak prompts for malicious attacks.
Although there have been many efforts to prevent harmful prompts and jailbreak
prompts, protecting LLMs from such malicious attacks remains an important and
challenging task. In this paper, we propose QGuard, a simple yet effective
safety guard method, that utilizes question prompting to block harmful prompts
in a zero-shot manner. Our method can defend LLMs not only from text-based
harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by
diversifying and modifying guard questions, our approach remains robust against
the latest harmful prompts without fine-tuning. Experimental results show that
our model performs competitively on both text-only and multi-modal harmful
datasets. Additionally, by providing an analysis of question prompting, we
enable a white-box analysis of user inputs. We believe our method provides
valuable insights for real-world LLM services in mitigating security risks
associated with harmful prompts.