Rote Teamentwicklung von GPT-4V: Sind GPT-4V sicher gegen Uni-/Multi-Modale Gefängnisausbruchsangriffe?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
April 4, 2024
Autoren: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Zusammenfassung
Verschiedene Jailbreak-Angriffe wurden vorgeschlagen, um Large Language Models (LLMs) im Red-Team zu testen und die anfälligen Sicherheitsvorkehrungen von LLMs aufzudecken. Einige Methoden beschränken sich nicht nur auf die textuelle Modalität, sondern erweitern den Jailbreak-Angriff auf Multimodal Large Language Models (MLLMs), indem sie die visuelle Eingabe verändern. Allerdings erschwert das Fehlen eines universellen Bewertungsmaßstabs die Reproduktion der Leistung und den fairen Vergleich. Zudem fehlt eine umfassende Bewertung von Closed-Source State-of-the-Art (SOTA)-Modellen, insbesondere MLLMs wie GPT-4V. Um diese Probleme anzugehen, baut diese Arbeit zunächst einen umfassenden Jailbreak-Bewertungsdatensatz mit 1445 schädlichen Fragen auf, die 11 verschiedene Sicherheitsrichtlinien abdecken. Basierend auf diesem Datensatz werden umfangreiche Red-Teaming-Experimente an 11 verschiedenen LLMs und MLLMs durchgeführt, einschließlich sowohl SOTA-Proprietärmodelle als auch Open-Source-Modelle. Anschließend wird eine eingehende Analyse der bewerteten Ergebnisse durchgeführt und festgestellt, dass (1) GPT4 und GPT-4V eine bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source LLMs und MLLMs zeigen. (2) Llama2 und Qwen-VL-Chat sind im Vergleich zu anderen Open-Source-Modellen robuster. (3) Die Übertragbarkeit von visuellen Jailbreak-Methoden ist im Vergleich zu textuellen Jailbreak-Methoden relativ begrenzt. Der Datensatz und der Code sind hier zu finden: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language
Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some
methods are not limited to the textual modality and extend the jailbreak attack
to Multimodal Large Language Models (MLLMs) by perturbing the visual input.
However, the absence of a universal evaluation benchmark complicates the
performance reproduction and fair comparison. Besides, there is a lack of
comprehensive evaluation of closed-source state-of-the-art (SOTA) models,
especially MLLMs, such as GPT-4V. To address these issues, this work first
builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions
covering 11 different safety policies. Based on this dataset, extensive
red-teaming experiments are conducted on 11 different LLMs and MLLMs, including
both SOTA proprietary models and open-source models. We then conduct a deep
analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate
better robustness against jailbreak attacks compared to open-source LLMs and
MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other
open-source models. (3) The transferability of visual jailbreak methods is
relatively limited compared to textual jailbreak methods. The dataset and code
can be found here
https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .Summary
AI-Generated Summary