Pague Menos Atenção às Palavras Funcionais para uma Robustez Gratuita de Modelos de Visão e Linguagem

Resumo

Para resolver o compromisso entre robustez e desempenho em VLMs robustos, observamos que as palavras funcionais podem induzir vulnerabilidade em VLMs contra ataques adversariais cross-modal e propomos, consequentemente, o Function-word De-Attention (FDA) para mitigar o impacto das palavras funcionais. Semelhante a amplificadores diferenciais, nosso FDA calcula a atenção cruzada original e a atenção cruzada das palavras funcionais dentro dos cabeçalhos de atenção, e subtrai diferencialmente a última da primeira para obter VLMs mais alinhados e robustos. Experimentos abrangentes incluem 2 baselines state-of-the-art sob 6 ataques diferentes em 2 tarefas downstream, 3 conjuntos de dados e 3 modelos. No geral, nosso FDA produz uma redução média de 18/13/53% na Taxa de Sucesso de Ataque (ASR) com quedas de desempenho de apenas 0,2/0,3/0,6% nos 3 modelos testados em recuperação, e uma redução de 90% na ASR com um ganho de desempenho de 0,3% em *visual grounding*. Demonstramos experimentalmente a escalabilidade, generalização e desempenho *zero-shot* do FDA, bem como estudos de ablação e análises aprofundadas. O código será disponibilizado publicamente em https://github.com/michaeltian108/FDA.

English

To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.

Pague Menos Atenção às Palavras Funcionais para uma Robustez Gratuita de Modelos de Visão e Linguagem

Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

Resumo

Support