IAG: Ataque Backdoor Consciente da Entrada em VLMs para Grounding Visual
IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
August 13, 2025
Autores: Junxian Li, Beining Xu, Di Zhang
cs.AI
Resumo
Modelos de visão e linguagem (VLMs) têm demonstrado avanços significativos em tarefas como a fundamentação visual, onde localizam objetos específicos em imagens com base em consultas de linguagem natural e imagens. No entanto, questões de segurança em tarefas de fundamentação visual para VLMs permanecem pouco exploradas, especialmente no contexto de ataques de backdoor. Neste artigo, introduzimos um novo método de ataque de backdoor consciente da entrada, IAG, projetado para manipular o comportamento de fundamentação de VLMs. Esse ataque força o modelo a fundamentar um objeto alvo específico na imagem de entrada, independentemente da consulta do usuário. Propomos um gerador de gatilho adaptativo que incorpora a informação semântica da descrição do alvo do ataque na imagem original usando uma U-Net condicionada por texto, superando assim o desafio do ataque de vocabulário aberto. Para garantir a discrição do ataque, utilizamos uma perda de reconstrução para minimizar as discrepâncias visuais entre imagens envenenadas e limpas. Além disso, introduzimos um método unificado para gerar dados de ataque. O IAG é avaliado teórica e empiricamente, demonstrando sua viabilidade e eficácia. Notavelmente, nosso ASR@0.5 no InternVL-2.5-8B atinge mais de 65% em vários conjuntos de teste. O IAG também mostra potencial promissor na manipulação do Ferret-7B e do LlaVA-1.5-7B com uma diminuição muito pequena na precisão em amostras limpas. Experimentos específicos extensivos, como estudo de ablação e defesa potencial, também indicam a robustez e transferibilidade do nosso ataque.
English
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.