ChatPaper.aiChatPaper

Minder Aandacht voor Functiewoorden voor Gratze Robuustheid van Visueel-Taalmodellen

Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

December 8, 2025
Auteurs: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI

Samenvatting

Om de afweging tussen robuustheid en prestaties voor robuuste VLM's aan te pakken, observeren we dat functiewoorden kwetsbaarheid van VLM's voor cross-modale adversariële aanvallen kunnen veroorzaken, en stellen dienovereenkomstig Function-word De-Attention (FDA) voor om de impact van functiewoorden te verminderen. Vergelijkbaar met differentiële versterkers, berekent onze FDA de originele en de functiewoord cross-attention binnen attention heads, en trekt de laatste differentieel af van de eerste voor beter uitgelijnde en robuustere VLM's. Uitgebreide experimenten omvatten 2 state-of-the-art baseline-modellen onder 6 verschillende aanvallen op 2 downstreamtaken, 3 datasets en 3 modellen. Over het geheel genomen resulteert onze FDA in een gemiddelde daling van 18/13/53% in het aanvalsuccespercentage (ASR) met slechts 0,2/0,3/0,6% prestatieverlies op de 3 geteste modellen voor retrieval, en een daling van 90% in ASR met een prestatieverbetering van 0,3% voor visuele grounding. We demonstreren experimenteel de schaalbaarheid, generalisatie en zero-shot prestaties van FDA, evenals uitgebreide ablatiestudies en analyse. Code zal openbaar gemaakt worden op https://github.com/michaeltian108/FDA.
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.
PDF12December 13, 2025