Red Teaming GPT-4V: GPT-4V è sicuro contro gli attacchi di jailbreak uni/multi-modali?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
April 4, 2024
Autori: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Abstract
Sono stati proposti vari attacchi di jailbreak per testare i modelli di linguaggio di grandi dimensioni (LLM) e rivelare le vulnerabilità dei loro meccanismi di sicurezza. Inoltre, alcuni metodi non si limitano alla modalità testuale e estendono l'attacco di jailbreak ai Modelli Multimodali di Linguaggio di Grandi Dimensioni (MLLM) perturbando l'input visivo. Tuttavia, l'assenza di un benchmark di valutazione universale complica la riproduzione delle prestazioni e il confronto equo. Inoltre, manca una valutazione completa dei modelli proprietari all'avanguardia (SOTA), in particolare degli MLLM, come GPT-4V. Per affrontare questi problemi, questo lavoro costruisce innanzitutto un dataset completo per la valutazione del jailbreak con 1445 domande dannose che coprono 11 diverse politiche di sicurezza. Sulla base di questo dataset, vengono condotti ampi esperimenti di red-teaming su 11 diversi LLM e MLLM, inclusi sia modelli proprietari SOTA che modelli open-source. Successivamente, viene effettuata un'analisi approfondita dei risultati valutati, riscontrando che: (1) GPT-4 e GPT-4V dimostrano una maggiore robustezza contro gli attacchi di jailbreak rispetto agli LLM e MLLM open-source. (2) Llama2 e Qwen-VL-Chat sono più robusti rispetto ad altri modelli open-source. (3) La trasferibilità dei metodi di jailbreak visivo è relativamente limitata rispetto ai metodi di jailbreak testuali. Il dataset e il codice sono disponibili qui: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language
Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some
methods are not limited to the textual modality and extend the jailbreak attack
to Multimodal Large Language Models (MLLMs) by perturbing the visual input.
However, the absence of a universal evaluation benchmark complicates the
performance reproduction and fair comparison. Besides, there is a lack of
comprehensive evaluation of closed-source state-of-the-art (SOTA) models,
especially MLLMs, such as GPT-4V. To address these issues, this work first
builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions
covering 11 different safety policies. Based on this dataset, extensive
red-teaming experiments are conducted on 11 different LLMs and MLLMs, including
both SOTA proprietary models and open-source models. We then conduct a deep
analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate
better robustness against jailbreak attacks compared to open-source LLMs and
MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other
open-source models. (3) The transferability of visual jailbreak methods is
relatively limited compared to textual jailbreak methods. The dataset and code
can be found here
https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .