ChatPaper.aiChatPaper

GPT-4V 레드 팀 테스트: GPT-4V가 단일/다중 모달 제이브레이크 공격에 안전한가?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

April 4, 2024
저자: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI

초록

다양한 탈옥(jailbreak) 공격이 대형 언어 모델(LLM)의 레드 팀 테스트를 위해 제안되었으며, 이를 통해 LLM의 취약한 안전장치가 드러났습니다. 또한, 일부 방법은 텍스트 모달리티에 국한되지 않고 시각적 입력을 교란하여 다중모달 대형 언어 모델(MLLM)로 탈옥 공격을 확장합니다. 그러나 보편적인 평가 벤치마크의 부재로 인해 성능 재현과 공정한 비교가 복잡해졌습니다. 더욱이, 특히 GPT-4V와 같은 최첨단(SOTA) 폐쇄형 모델에 대한 포괄적인 평가가 부족합니다. 이러한 문제를 해결하기 위해, 본 연구는 먼저 11가지 다른 안전 정책을 포함한 1445개의 유해 질문으로 구성된 포괄적인 탈옥 평가 데이터셋을 구축했습니다. 이 데이터셋을 기반으로, SOTA 독점 모델과 오픈소스 모델을 포함한 11개의 서로 다른 LLM과 MLLM에 대해 광범위한 레드 팀 테스트 실험을 수행했습니다. 그런 다음 평가 결과에 대한 심층 분석을 수행하여 다음과 같은 사실을 발견했습니다: (1) GPT-4와 GPT-4V는 오픈소스 LLM 및 MLLM에 비해 탈옥 공격에 대해 더 나은 견고성을 보였습니다. (2) Llama2와 Qwen-VL-Chat은 다른 오픈소스 모델에 비해 더 견고했습니다. (3) 시각적 탈옥 방법의 전이성은 텍스트 기반 탈옥 방법에 비해 상대적으로 제한적이었습니다. 데이터셋과 코드는 다음 링크에서 확인할 수 있습니다: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
English
Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .

Summary

AI-Generated Summary

PDF110December 15, 2024