Presta Menos Atención a las Palabras Funcionales para una Robustez Gratuita de los Modelos de Visión y Lenguaje
Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
December 8, 2025
Autores: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI
Resumen
Para abordar la compensación entre robustez y rendimiento en los VLM robustos, observamos que las palabras funcionales pueden generar vulnerabilidad en los VLM frente a ataques adversarios cross-modales, y proponemos en consecuencia la Función de Desatención de Palabras Funcionales (FDA, por sus siglas en inglés) para mitigar el impacto de dichas palabras. De manera similar a los amplificadores diferenciales, nuestra FDA calcula la atención cruzada original y la de palabras funcionales dentro de las cabezas de atención, y resta diferencialmente la segunda de la primera para obtener VLM más alineados y robustos. Los experimentos exhaustivos incluyen 2 líneas base de última generación (SOTA) bajo 6 ataques diferentes en 2 tareas posteriores, 3 conjuntos de datos y 3 modelos. En general, nuestra FDA produce una reducción promedio del 18/13/53% en la Tasa de Éxito de Ataque (ASR) con caídas de rendimiento de solo 0,2/0,3/0,6% en los 3 modelos evaluados en recuperación, y una reducción del 90% en ASR con una ganancia de rendimiento del 0,3% en la tarea de anclaje visual. Demostramos experimentalmente la escalabilidad, generalización y rendimiento *zero-shot* de la FDA, así como estudios y análisis de ablación en profundidad. El código estará disponible públicamente en https://github.com/michaeltian108/FDA.
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.