ChatPaper.aiChatPaper

Pruebas de resistencia en GPT-4V: ¿Es GPT-4V seguro frente a ataques de jailbreak uni/multimodales?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

April 4, 2024
Autores: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI

Resumen

Se han propuesto diversos ataques de jailbreak para realizar pruebas de red teaming en Modelos de Lenguaje de Gran Escala (LLMs), revelando las vulnerabilidades en sus salvaguardas. Además, algunos métodos no se limitan a la modalidad textual y extienden el ataque de jailbreak a Modelos Multimodales de Lenguaje de Gran Escala (MLLMs) mediante la perturbación de entradas visuales. Sin embargo, la ausencia de un benchmark de evaluación universal complica la reproducción del rendimiento y la comparación justa. Asimismo, existe una falta de evaluación exhaustiva de modelos de última generación (SOTA) de código cerrado, especialmente MLLMs, como GPT-4V. Para abordar estos problemas, este trabajo primero construye un conjunto de datos de evaluación de jailbreak con 1445 preguntas dañinas que cubren 11 políticas de seguridad diferentes. Basado en este conjunto de datos, se realizan extensos experimentos de red teaming en 11 LLMs y MLLMs diferentes, incluyendo tanto modelos propietarios SOTA como modelos de código abierto. Luego, llevamos a cabo un análisis profundo de los resultados evaluados y encontramos que: (1) GPT-4 y GPT-4V demuestran una mayor robustez frente a ataques de jailbreak en comparación con LLMs y MLLMs de código abierto. (2) Llama2 y Qwen-VL-Chat son más robustos en comparación con otros modelos de código abierto. (3) La transferibilidad de los métodos de jailbreak visual es relativamente limitada en comparación con los métodos de jailbreak textual. El conjunto de datos y el código se pueden encontrar aquí: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .

Summary

AI-Generated Summary

PDF110December 15, 2024