Уделяйте меньше внимания служебным словам для повышения устойчивости мультимодальных моделей
Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
December 8, 2025
Авторы: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI
Аннотация
Для решения проблемы компромисса между устойчивостью и производительностью в robust VLM мы наблюдаем, что служебные слова могут вызывать уязвимость VLMs к кросс-модальным атакам, и предлагаем метод Function-word De-Attention (FDA) для снижения влияния служебных слов. По аналогии с дифференциальными усилителями, наш FDA вычисляет исходное кросс-внимание и кросс-внимание служебных слов внутри голов внимания и дифференциально вычитает последнее из первого для получения более выровненных и устойчивых VLMs. Комплексные эксперименты включают 2 современных базовых метода при 6 различных атаках на 2 downstream-задачи, 3 набора данных и 3 модели. В целом, наш FDA обеспечивает среднее снижение ASR на 18/13/53% при падении производительности всего на 0.2/0.3/0.6% на 3 тестируемых моделях для retrieval и снижение ASR на 90% с приростом производительности на 0.3% для visual grounding. Мы экспериментально демонстрируем масштабируемость, способность к обобщению и zero-shot производительность FDA, а также проводим детальные ablation-исследования и анализ. Код будет общедоступен по адресу https://github.com/michaeltian108/FDA.
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.