ChatPaper.aiChatPaper

Testando GPT-4V com Red Teaming: O GPT-4V é Seguro Contra Ataques de Jailbreak Uni/Multimodal?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

April 4, 2024
Autores: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI

Resumo

Diversos ataques de jailbreak foram propostos para testar a segurança de Modelos de Linguagem de Grande Escala (LLMs) e revelaram as salvaguardas vulneráveis desses modelos. Além disso, alguns métodos não se limitam à modalidade textual e estendem o ataque de jailbreak para Modelos de Linguagem Multimodais de Grande Escala (MLLMs) por meio da perturbação da entrada visual. No entanto, a ausência de um benchmark universal de avaliação complica a reprodução de desempenho e a comparação justa. Além disso, há uma falta de avaliação abrangente de modelos proprietários de última geração (SOTA), especialmente MLLMs, como o GPT-4V. Para abordar essas questões, este trabalho primeiro constrói um conjunto de dados abrangente de avaliação de jailbreak com 1445 perguntas prejudiciais cobrindo 11 políticas de segurança diferentes. Com base nesse conjunto de dados, extensos experimentos de red-teaming são conduzidos em 11 diferentes LLMs e MLLMs, incluindo tanto modelos proprietários SOTA quanto modelos de código aberto. Em seguida, realizamos uma análise profunda dos resultados avaliados e descobrimos que (1) GPT-4 e GPT-4V demonstram maior robustez contra ataques de jailbreak em comparação com LLMs e MLLMs de código aberto. (2) Llama2 e Qwen-VL-Chat são mais robustos em comparação com outros modelos de código aberto. (3) A transferibilidade dos métodos de jailbreak visual é relativamente limitada em comparação com os métodos de jailbreak textual. O conjunto de dados e o código podem ser encontrados aqui: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .
PDF100February 8, 2026