Red Teaming GPT-4V: Is GPT-4V Veilig tegen Uni/Multi-Modale Jailbreak- Aanvallen?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
April 4, 2024
Auteurs: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Samenvatting
Er zijn verschillende jailbreak-aanvallen voorgesteld om Large Language Models (LLMs) te testen en de kwetsbare beveiligingsmaatregelen van LLMs bloot te leggen. Bovendien zijn sommige methoden niet beperkt tot de tekstuele modaliteit en breiden ze de jailbreak-aanval uit naar Multimodal Large Language Models (MLLMs) door de visuele invoer te verstoren. Het ontbreken van een universele evaluatiebenchmark bemoeilijkt echter de reproductie van prestaties en een eerlijke vergelijking. Daarnaast ontbreekt een uitgebreide evaluatie van gesloten state-of-the-art (SOTA) modellen, met name MLLMs, zoals GPT-4V. Om deze problemen aan te pakken, bouwt dit werk eerst een uitgebreide jailbreak-evaluatiedataset met 1445 schadelijke vragen die 11 verschillende veiligheidsbeleidsregels bestrijken. Op basis van deze dataset worden uitgebreide red-teaming-experimenten uitgevoerd op 11 verschillende LLMs en MLLMs, waaronder zowel SOTA-propriëtaire modellen als open-source modellen. Vervolgens voeren we een diepgaande analyse uit van de geëvalueerde resultaten en concluderen dat (1) GPT4 en GPT-4V een betere robuustheid tegen jailbreak-aanvallen vertonen in vergelijking met open-source LLMs en MLLMs. (2) Llama2 en Qwen-VL-Chat robuuster zijn in vergelijking met andere open-source modellen. (3) De overdraagbaarheid van visuele jailbreak-methoden relatief beperkt is in vergelijking met tekstuele jailbreak-methoden. De dataset en code zijn hier te vinden: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language
Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some
methods are not limited to the textual modality and extend the jailbreak attack
to Multimodal Large Language Models (MLLMs) by perturbing the visual input.
However, the absence of a universal evaluation benchmark complicates the
performance reproduction and fair comparison. Besides, there is a lack of
comprehensive evaluation of closed-source state-of-the-art (SOTA) models,
especially MLLMs, such as GPT-4V. To address these issues, this work first
builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions
covering 11 different safety policies. Based on this dataset, extensive
red-teaming experiments are conducted on 11 different LLMs and MLLMs, including
both SOTA proprietary models and open-source models. We then conduct a deep
analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate
better robustness against jailbreak attacks compared to open-source LLMs and
MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other
open-source models. (3) The transferability of visual jailbreak methods is
relatively limited compared to textual jailbreak methods. The dataset and code
can be found here
https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .