ChatPaper.aiChatPaper

Test d'intrusion de GPT-4V : GPT-4V est-il sûr face aux attaques de contournement uni/multi-modales ?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

April 4, 2024
Auteurs: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI

Résumé

Diverses attaques de jailbreak ont été proposées pour tester en rouge les modèles de langage de grande taille (LLMs) et ont révélé les protections vulnérables de ces derniers. Par ailleurs, certaines méthodes ne se limitent pas à la modalité textuelle et étendent l'attaque de jailbreak aux modèles de langage multimodaux de grande taille (MLLMs) en perturbant l'entrée visuelle. Cependant, l'absence d'un benchmark universel d'évaluation complique la reproduction des performances et la comparaison équitable. De plus, il manque une évaluation complète des modèles propriétaires fermés de pointe (SOTA), en particulier des MLLMs, tels que GPT-4V. Pour résoudre ces problèmes, ce travail commence par construire un ensemble de données d'évaluation de jailbreak complet avec 1445 questions nuisibles couvrant 11 politiques de sécurité différentes. Sur la base de cet ensemble de données, des expériences approfondies de test en rouge sont menées sur 11 LLMs et MLLMs différents, incluant à la fois des modèles propriétaires SOTA et des modèles open-source. Nous effectuons ensuite une analyse approfondie des résultats évalués et constatons que (1) GPT4 et GPT-4V démontrent une meilleure robustesse contre les attaques de jailbreak par rapport aux LLMs et MLLMs open-source. (2) Llama2 et Qwen-VL-Chat sont plus robustes par rapport aux autres modèles open-source. (3) La transférabilité des méthodes de jailbreak visuel est relativement limitée par rapport aux méthodes de jailbreak textuel. L'ensemble de données et le code peuvent être trouvés ici https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .

Summary

AI-Generated Summary

PDF110December 15, 2024