Красное тестирование GPT-4V: безопасны ли GPT-4V от атак типа Jailbreak в унимодальном/мультимодальном режимах?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
April 4, 2024
Авторы: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Аннотация
Были предложены различные атаки на снятие ограничений для крупных языковых моделей (LLM), которые выявили уязвимые механизмы защиты LLM. Кроме того, некоторые методы не ограничиваются текстовой модальностью и расширяют атаку на снятие ограничений на Мультимодальные крупные языковые модели (MLLM), исказив визуальный ввод. Однако отсутствие универсальной оценочной базы затрудняет воспроизведение производительности и справедливое сравнение. Кроме того, отсутствует комплексная оценка закрытых современных моделей (SOTA), особенно MLLM, таких как GPT-4V. Для решения этих проблем данная работа сначала создает обширный набор данных для оценки атак на снятие ограничений с 1445 вредоносными вопросами, охватывающими 11 различных политик безопасности. На основе этого набора данных проводятся обширные эксперименты по атакам на снятие ограничений на 11 различных LLM и MLLM, включая как закрытые модели SOTA, так и открытые модели. Затем проводится глубокий анализ оцененных результатов, и выясняется, что (1) GPT-4 и GPT-4V демонстрируют лучшую устойчивость к атакам на снятие ограничений по сравнению с открытыми LLM и MLLM. (2) Llama2 и Qwen-VL-Chat более устойчивы по сравнению с другими открытыми моделями. (3) Переносимость визуальных методов атак на снятие ограничений относительно ограничена по сравнению с текстовыми методами атак на снятие ограничений. Набор данных и код можно найти здесь: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language
Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some
methods are not limited to the textual modality and extend the jailbreak attack
to Multimodal Large Language Models (MLLMs) by perturbing the visual input.
However, the absence of a universal evaluation benchmark complicates the
performance reproduction and fair comparison. Besides, there is a lack of
comprehensive evaluation of closed-source state-of-the-art (SOTA) models,
especially MLLMs, such as GPT-4V. To address these issues, this work first
builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions
covering 11 different safety policies. Based on this dataset, extensive
red-teaming experiments are conducted on 11 different LLMs and MLLMs, including
both SOTA proprietary models and open-source models. We then conduct a deep
analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate
better robustness against jailbreak attacks compared to open-source LLMs and
MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other
open-source models. (3) The transferability of visual jailbreak methods is
relatively limited compared to textual jailbreak methods. The dataset and code
can be found here
https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .Summary
AI-Generated Summary