Presta Meno Attenzione alle Parole Funzionali per una Robustezza Gratuita dei Modelli Visione-Linguaggio

Abstract

Per affrontare il compromesso tra robustezza e prestazioni nei VLM robusti, osserviamo che le parole funzionali possono introdurre vulnerabilità nei VLM contro attacchi adversarial cross-modali, e proponiamo di conseguenza la Function-word De-Attention (FDA) per mitigare l'impatto delle parole funzionali. Similmente agli amplificatori differenziali, la nostra FDA calcola l'attenzione incrociata originale e quella relativa alle parole funzionali all'interno delle teste di attenzione, e sottrae differenzialmente la seconda dalla prima per ottenere VLM più allineati e robusti. Esperimenti completi includono 2 baseline state-of-the-art sotto 6 diversi attacchi su 2 task downstream, 3 dataset e 3 modelli. Nel complesso, la nostra FDA produce in media un calo del ASR del 18/13/53% con riduzioni prestazionali di solo lo 0,2/0,3/0,6% sui 3 modelli testati per il retrieval, e un calo del ASR del 90% con un guadagno prestazionale dello 0,3% per il visual grounding. Dimostriamo sperimentalmente la scalabilità, la generalizzazione e le prestazioni zero-shot della FDA, unitamente a studi di ablazione e analisi approfonditi. Il codice sarà reso pubblico su https://github.com/michaeltian108/FDA.

English

To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.

Presta Meno Attenzione alle Parole Funzionali per una Robustezza Gratuita dei Modelli Visione-Linguaggio

Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

Abstract

Support