QGuard: Fragenbasierte Nullschuss-Absicherung für die Sicherheit multimodaler LLMs
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety
June 14, 2025
papers.authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
cs.AI
papers.abstract
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben erhebliche Auswirkungen auf eine Vielzahl von Bereichen, von allgemeinen Domänen bis hin zu spezialisierten Anwendungsgebieten. Diese Fortschritte haben jedoch auch das Potenzial für böswillige Nutzer deutlich erhöht, schädliche und Jailbreak-Prompts für bösartige Angriffe auszunutzen. Obwohl es viele Bemühungen gab, schädliche und Jailbreak-Prompts zu verhindern, bleibt der Schutz von LLMs vor solchen bösartigen Angriffen eine wichtige und herausfordernde Aufgabe. In diesem Artikel schlagen wir QGuard vor, eine einfache, aber effektive Sicherheitsmethode, die Frage-Prompting nutzt, um schädliche Prompts in einem Zero-Shot-Verfahren zu blockieren. Unsere Methode kann LLMs nicht nur vor textbasierten schädlichen Prompts schützen, sondern auch vor multimodalen schädlichen Prompt-Angriffen. Darüber hinaus bleibt unser Ansatz durch die Diversifizierung und Modifikation von Sicherheitsfragen robust gegenüber den neuesten schädlichen Prompts, ohne dass ein Fine-Tuning erforderlich ist. Experimentelle Ergebnisse zeigen, dass unser Modell sowohl bei textbasierten als auch bei multimodalen schädlichen Datensätzen wettbewerbsfähig abschneidet. Zudem ermöglichen wir durch eine Analyse des Frage-Promptings eine White-Box-Analyse von Benutzereingaben. Wir glauben, dass unsere Methode wertvolle Einblicke für reale LLM-Dienste bietet, um Sicherheitsrisiken im Zusammenhang mit schädlichen Prompts zu mindern.
English
The recent advancements in Large Language Models(LLMs) have had a significant
impact on a wide range of fields, from general domains to specialized areas.
However, these advancements have also significantly increased the potential for
malicious users to exploit harmful and jailbreak prompts for malicious attacks.
Although there have been many efforts to prevent harmful prompts and jailbreak
prompts, protecting LLMs from such malicious attacks remains an important and
challenging task. In this paper, we propose QGuard, a simple yet effective
safety guard method, that utilizes question prompting to block harmful prompts
in a zero-shot manner. Our method can defend LLMs not only from text-based
harmful prompts but also from multi-modal harmful prompt attacks. Moreover, by
diversifying and modifying guard questions, our approach remains robust against
the latest harmful prompts without fine-tuning. Experimental results show that
our model performs competitively on both text-only and multi-modal harmful
datasets. Additionally, by providing an analysis of question prompting, we
enable a white-box analysis of user inputs. We believe our method provides
valuable insights for real-world LLM services in mitigating security risks
associated with harmful prompts.