ChatPaper.aiChatPaper

실망스러울 정도로 단순하지만 매우 효과적인 공격 기법: GPT-4.5/4o/o1과 같은 강력한 블랙박스 모델에 대해 90% 이상의 성공률을 보이는 공격 베이스라인

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

March 13, 2025
저자: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI

초록

오픈소스 대형 시각-언어 모델(LVLM)에서 유망한 성능을 보였음에도 불구하고, 전이 기반의 표적 공격은 블랙박스 상용 LVLM에 대해 종종 실패합니다. 실패한 적대적 섭동을 분석해 보면, 학습된 섭동은 일반적으로 균일한 분포에서 비롯되며 명확한 의미론적 세부 사항이 부족하여 의도하지 않은 응답을 초래합니다. 이러한 의미론적 정보의 심각한 부재는 상용 LVLM이 섭동을 완전히 무시하거나 내포된 의미를 잘못 해석하게 하여 공격이 실패하게 만듭니다. 이러한 문제를 극복하기 위해, 우리는 다양한 데이터셋과 방법론으로 훈련된 모델의 핵심 목표가 핵심 의미론적 객체를 식별하는 것임을 주목했습니다. 이러한 통찰은 우리의 접근 방식을 동기부여하며, 지역적 영역 내에 명시적인 의미론적 세부 사항을 인코딩하여 상호 운용성을 보장하고 더 세밀한 특징을 포착하며, 균일하게 적용하는 대신 의미론적으로 풍부한 영역에 수정을 집중함으로써 의미론적 명확성을 개선합니다. 이를 달성하기 위해, 우리는 각 최적화 단계에서 적대적 이미지를 제어된 종횡비와 스케일로 무작위로 자르고, 크기를 조정한 후 타겟 이미지와 임베딩 공간에서 정렬하는 간단하지만 매우 효과적인 솔루션을 제안합니다. 실험 결과는 우리의 가설을 확인합니다. 핵심 영역에 집중된 지역적 집계 섭동으로 제작된 우리의 적대적 예제는 GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, 그리고 심지어 o1, Claude-3.7-thinking, Gemini-2.0-flash-thinking과 같은 추론 모델을 포함한 상용 LVLM에 놀라운 전이성을 보입니다. 우리의 접근 방식은 GPT-4.5, 4o, o1에서 90%를 초과하는 성공률을 달성하며, 모든 기존의 최첨단 공격 방법을 크게 능가합니다. 다양한 구성과 훈련 코드에 따른 우리의 최적화된 적대적 예제는 https://github.com/VILA-Lab/M-Attack에서 확인할 수 있습니다.
English
Despite promising performance on open-source large vision-language models (LVLMs), transfer-based targeted attacks often fail against black-box commercial LVLMs. Analyzing failed adversarial perturbations reveals that the learned perturbations typically originate from a uniform distribution and lack clear semantic details, resulting in unintended responses. This critical absence of semantic information leads commercial LVLMs to either ignore the perturbation entirely or misinterpret its embedded semantics, thereby causing the attack to fail. To overcome these issues, we notice that identifying core semantic objects is a key objective for models trained with various datasets and methodologies. This insight motivates our approach that refines semantic clarity by encoding explicit semantic details within local regions, thus ensuring interoperability and capturing finer-grained features, and by concentrating modifications on semantically rich areas rather than applying them uniformly. To achieve this, we propose a simple yet highly effective solution: at each optimization step, the adversarial image is cropped randomly by a controlled aspect ratio and scale, resized, and then aligned with the target image in the embedding space. Experimental results confirm our hypothesis. Our adversarial examples crafted with local-aggregated perturbations focused on crucial regions exhibit surprisingly good transferability to commercial LVLMs, including GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly outperforming all prior state-of-the-art attack methods. Our optimized adversarial examples under different configurations and training code are available at https://github.com/VILA-Lab/M-Attack.

Summary

AI-Generated Summary

PDF32March 14, 2025