Red Teaming GPT-4V: GPT-4V è sicuro contro gli attacchi di jailbreak uni/multi-modali?

Abstract

Sono stati proposti vari attacchi di jailbreak per testare i modelli di linguaggio di grandi dimensioni (LLM) e rivelare le vulnerabilità dei loro meccanismi di sicurezza. Inoltre, alcuni metodi non si limitano alla modalità testuale e estendono l'attacco di jailbreak ai Modelli Multimodali di Linguaggio di Grandi Dimensioni (MLLM) perturbando l'input visivo. Tuttavia, l'assenza di un benchmark di valutazione universale complica la riproduzione delle prestazioni e il confronto equo. Inoltre, manca una valutazione completa dei modelli proprietari all'avanguardia (SOTA), in particolare degli MLLM, come GPT-4V. Per affrontare questi problemi, questo lavoro costruisce innanzitutto un dataset completo per la valutazione del jailbreak con 1445 domande dannose che coprono 11 diverse politiche di sicurezza. Sulla base di questo dataset, vengono condotti ampi esperimenti di red-teaming su 11 diversi LLM e MLLM, inclusi sia modelli proprietari SOTA che modelli open-source. Successivamente, viene effettuata un'analisi approfondita dei risultati valutati, riscontrando che: (1) GPT-4 e GPT-4V dimostrano una maggiore robustezza contro gli attacchi di jailbreak rispetto agli LLM e MLLM open-source. (2) Llama2 e Qwen-VL-Chat sono più robusti rispetto ad altri modelli open-source. (3) La trasferibilità dei metodi di jailbreak visivo è relativamente limitata rispetto ai metodi di jailbreak testuali. Il dataset e il codice sono disponibili qui: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.

English

Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .

Red Teaming GPT-4V: GPT-4V è sicuro contro gli attacchi di jailbreak uni/multi-modali?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Abstract

Support