Rote Teamentwicklung von GPT-4V: Sind GPT-4V sicher gegen Uni-/Multi-Modale Gefängnisausbruchsangriffe?

papers.abstract

Verschiedene Jailbreak-Angriffe wurden vorgeschlagen, um Large Language Models (LLMs) im Red-Team zu testen und die anfälligen Sicherheitsvorkehrungen von LLMs aufzudecken. Einige Methoden beschränken sich nicht nur auf die textuelle Modalität, sondern erweitern den Jailbreak-Angriff auf Multimodal Large Language Models (MLLMs), indem sie die visuelle Eingabe verändern. Allerdings erschwert das Fehlen eines universellen Bewertungsmaßstabs die Reproduktion der Leistung und den fairen Vergleich. Zudem fehlt eine umfassende Bewertung von Closed-Source State-of-the-Art (SOTA)-Modellen, insbesondere MLLMs wie GPT-4V. Um diese Probleme anzugehen, baut diese Arbeit zunächst einen umfassenden Jailbreak-Bewertungsdatensatz mit 1445 schädlichen Fragen auf, die 11 verschiedene Sicherheitsrichtlinien abdecken. Basierend auf diesem Datensatz werden umfangreiche Red-Teaming-Experimente an 11 verschiedenen LLMs und MLLMs durchgeführt, einschließlich sowohl SOTA-Proprietärmodelle als auch Open-Source-Modelle. Anschließend wird eine eingehende Analyse der bewerteten Ergebnisse durchgeführt und festgestellt, dass (1) GPT4 und GPT-4V eine bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source LLMs und MLLMs zeigen. (2) Llama2 und Qwen-VL-Chat sind im Vergleich zu anderen Open-Source-Modellen robuster. (3) Die Übertragbarkeit von visuellen Jailbreak-Methoden ist im Vergleich zu textuellen Jailbreak-Methoden relativ begrenzt. Der Datensatz und der Code sind hier zu finden: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.

English

Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .

Rote Teamentwicklung von GPT-4V: Sind GPT-4V sicher gegen Uni-/Multi-Modale Gefängnisausbruchsangriffe?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

papers.abstract

Support