ChatPaper.aiChatPaper

Achten Sie weniger auf Funktionswörter für kostenlose Robustheit von Vision-Sprache-Modellen

Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

December 8, 2025
papers.authors: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI

papers.abstract

Um den Kompromiss zwischen Robustheit und Leistung bei robusten VLMs zu adressieren, beobachten wir, dass Funktionswörter die Anfälligkeit von VLMs gegenüber cross-modalen Adversarial-Angriffen verursachen können, und schlagen entsprechend Function-word De-Attention (FDA) vor, um den Einfluss von Funktionswörtern zu mildern. Ähnlich wie Differenzverstärker berechnet unsere FDA die ursprüngliche und die Funktionswort-Cross-Attention innerhalb von Attention-Heads und subtrahiert letztere differenziell von ersterer, um besser ausgerichtete und robustere VLMs zu erhalten. Umfassende Experimente umfassen 2 State-of-the-Art-Baselines unter 6 verschiedenen Angriffen auf 2 Downstream-Aufgaben, 3 Datensätzen und 3 Modellen. Insgesamt erzielt unsere FDA durchschnittlich eine Reduktion der ASR um 18/13/53 % bei lediglich Leistungseinbußen von 0,2/0,3/0,6 % auf den 3 getesteten Modellen beim Retrieval, sowie eine ASR-Reduktion von 90 % bei einem Leistungszuwachs von 0,3 % beim Visual Grounding. Wir demonstrieren experimentell die Skalierbarkeit, Generalisierbarkeit und Zero-Shot-Leistung von FDA sowie eingehende Ablationsstudien und Analysen. Der Code wird unter https://github.com/michaeltian108/FDA öffentlich verfügbar sein.
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.
PDF12December 13, 2025