Красное тестирование GPT-4V: безопасны ли GPT-4V от атак типа Jailbreak в унимодальном/мультимодальном режимах?

Аннотация

Были предложены различные атаки на снятие ограничений для крупных языковых моделей (LLM), которые выявили уязвимые механизмы защиты LLM. Кроме того, некоторые методы не ограничиваются текстовой модальностью и расширяют атаку на снятие ограничений на Мультимодальные крупные языковые модели (MLLM), исказив визуальный ввод. Однако отсутствие универсальной оценочной базы затрудняет воспроизведение производительности и справедливое сравнение. Кроме того, отсутствует комплексная оценка закрытых современных моделей (SOTA), особенно MLLM, таких как GPT-4V. Для решения этих проблем данная работа сначала создает обширный набор данных для оценки атак на снятие ограничений с 1445 вредоносными вопросами, охватывающими 11 различных политик безопасности. На основе этого набора данных проводятся обширные эксперименты по атакам на снятие ограничений на 11 различных LLM и MLLM, включая как закрытые модели SOTA, так и открытые модели. Затем проводится глубокий анализ оцененных результатов, и выясняется, что (1) GPT-4 и GPT-4V демонстрируют лучшую устойчивость к атакам на снятие ограничений по сравнению с открытыми LLM и MLLM. (2) Llama2 и Qwen-VL-Chat более устойчивы по сравнению с другими открытыми моделями. (3) Переносимость визуальных методов атак на снятие ограничений относительно ограничена по сравнению с текстовыми методами атак на снятие ограничений. Набор данных и код можно найти здесь: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.

English

Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .

Красное тестирование GPT-4V: безопасны ли GPT-4V от атак типа Jailbreak в унимодальном/мультимодальном режимах?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Аннотация

Support