Moins d'attention aux mots fonctionnels pour une robustesse gratuite des modèles vision-langage
Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
December 8, 2025
papers.authors: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI
papers.abstract
Pour résoudre le compromis entre robustesse et performance des modèles vision-langage (VLM) robustes, nous observons que les mots-outils peuvent induire une vulnérabilité des VLM face aux attaques adverses cross-modales, et proposons en conséquence la Dé-Attention des Mots-Outils (FDA) pour atténuer leur impact. S’inspirant des amplificateurs différentiels, notre méthode FDA calcule les attentions croisées originales et celles des mots-outils au sein des têtes d’attention, puis soustrait différentiellement les secondes des premières afin d’obtenir des VLM mieux alignés et plus robustes. Les expérimentations exhaustives incluent 2 bases de référence state-of-the-art sous 6 attaques différentes, appliquées à 2 tâches en aval, 3 jeux de données et 3 modèles. Globalement, notre FDA réduit le taux de succès des attaques (ASR) de 18/13/53 % en moyenne pour seulement 0,2/0,3/0,6 % de baisse de performance sur les 3 modèles testés en tâche de retrieval, et obtient une réduction de 90 % de l’ASR avec un gain de performance de 0,3 % en ancrage visuel. Nous démontrons expérimentalement l’évolutivité, la généralisation et les performances zero-shot de FDA, ainsi que des études d’ablation et des analyses approfondies. Le code sera public sur https://github.com/michaeltian108/FDA.
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.