ChatPaper.aiChatPaper

시각-언어 모델의 강건성 확보를 위한 기능어 주의력 저감

Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

December 8, 2025
저자: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI

초록

강건한 VLM을 위한 강건성과 성능 간의 트레이드오프 문제를 해결하기 위해, 본 연구에서는 기능어(function word)가 VLM의 교차 모달 적대적 공격에 대한 취약성을 유발할 수 있음을 관찰하고, 이에 따라 기능어의 영향을 완화하기 위한 기능어 주의력 감소(Function-word De-Attention, FDA) 기법을 제안합니다. 차동 증폭기와 유사하게, 우리의 FDA는 어텐션 헤드 내에서 원본 교차 주의력과 기능어 교차 주의력을 각각 계산한 후, 전자에서 후자를 차동적으로 제거하여 더 정렬되고 강건한 VLM을 구현합니다. 포괄적인 실험은 2개의 하류 작업, 3개의 데이터셋, 3개의 모델에 대해 6가지 서로 다른 공격 하에서 2개의 SOTA(State-Of-The-Art) 베이스라인을 포함하여 수행되었습니다. 전반적으로, 우리의 FDA는 검색 작업에서 테스트한 3개 모델 각각에 대해 성능 저하가 단지 0.2/0.3/0.6%에 불과함에도 평균 18/13/53%의 공격 성공률(ASR) 감소를 달성했으며, 시각적 기반(visual grounding) 작업에서는 0.3%의 성능 향상과 함께 90%의 ASR 감소를 보였습니다. 우리는 실험을 통해 FDA의 확장성, 일반화 성능 및 제로샷 성능을 입증함과 동시에, 심층적인 애블레이션 연구 및 분석을 제공합니다. 코드는 https://github.com/michaeltian108/FDA에서 공개될 예정입니다.
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.
PDF12December 13, 2025