IAG: Ataque de puerta trasera consciente de la entrada en modelos de lenguaje visual para la fundamentación visual
IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
August 13, 2025
Autores: Junxian Li, Beining Xu, Di Zhang
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han mostrado avances significativos en tareas como la localización visual, donde identifican objetos específicos en imágenes basándose en consultas de lenguaje natural e imágenes. Sin embargo, los problemas de seguridad en las tareas de localización visual para VLMs siguen siendo poco explorados, especialmente en el contexto de ataques de puerta trasera. En este artículo, presentamos un nuevo método de ataque de puerta trasera consciente de la entrada, IAG, diseñado para manipular el comportamiento de localización de los VLMs. Este ataque fuerza al modelo a localizar un objeto objetivo específico en la imagen de entrada, independientemente de la consulta del usuario. Proponemos un generador de disparadores adaptativo que incrusta la información semántica de la descripción del objetivo del ataque en la imagen original utilizando una U-Net condicionada por texto, superando así el desafío del ataque de vocabulario abierto. Para garantizar la discreción del ataque, utilizamos una pérdida de reconstrucción para minimizar las discrepancias visuales entre las imágenes envenenadas y las limpias. Además, introducimos un método unificado para generar datos de ataque. IAG es evaluado teórica y empíricamente, demostrando su viabilidad y efectividad. Cabe destacar que nuestro ASR@0.5 en InternVL-2.5-8B alcanza más del 65% en varios conjuntos de prueba. IAG también muestra un potencial prometedor en la manipulación de Ferret-7B y LlaVA-1.5-7B con una disminución mínima en la precisión de las muestras limpias. Experimentos específicos extensos, como el estudio de ablación y la defensa potencial, también indican la robustez y transferibilidad de nuestro ataque.
English
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.