ChatPaper.aiChatPaper

IAG: Ataque de puerta trasera consciente de la entrada en modelos de lenguaje visual para la fundamentación visual

IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

August 13, 2025
Autores: Junxian Li, Beining Xu, Di Zhang
cs.AI

Resumen

Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han mostrado avances significativos en tareas como la localización visual, donde identifican objetos específicos en imágenes basándose en consultas de lenguaje natural e imágenes. Sin embargo, los problemas de seguridad en las tareas de localización visual para VLMs siguen siendo poco explorados, especialmente en el contexto de ataques de puerta trasera. En este artículo, presentamos un nuevo método de ataque de puerta trasera consciente de la entrada, IAG, diseñado para manipular el comportamiento de localización de los VLMs. Este ataque fuerza al modelo a localizar un objeto objetivo específico en la imagen de entrada, independientemente de la consulta del usuario. Proponemos un generador de disparadores adaptativo que incrusta la información semántica de la descripción del objetivo del ataque en la imagen original utilizando una U-Net condicionada por texto, superando así el desafío del ataque de vocabulario abierto. Para garantizar la discreción del ataque, utilizamos una pérdida de reconstrucción para minimizar las discrepancias visuales entre las imágenes envenenadas y las limpias. Además, introducimos un método unificado para generar datos de ataque. IAG es evaluado teórica y empíricamente, demostrando su viabilidad y efectividad. Cabe destacar que nuestro ASR@0.5 en InternVL-2.5-8B alcanza más del 65% en varios conjuntos de prueba. IAG también muestra un potencial prometedor en la manipulación de Ferret-7B y LlaVA-1.5-7B con una disminución mínima en la precisión de las muestras limpias. Experimentos específicos extensos, como el estudio de ablación y la defensa potencial, también indican la robustez y transferibilidad de nuestro ataque.
English
Vision-language models (VLMs) have shown significant advancements in tasks such as visual grounding, where they localize specific objects in images based on natural language queries and images. However, security issues in visual grounding tasks for VLMs remain underexplored, especially in the context of backdoor attacks. In this paper, we introduce a novel input-aware backdoor attack method, IAG, designed to manipulate the grounding behavior of VLMs. This attack forces the model to ground a specific target object in the input image, regardless of the user's query. We propose an adaptive trigger generator that embeds the semantic information of the attack target's description into the original image using a text-conditional U-Net, thereby overcoming the open-vocabulary attack challenge. To ensure the attack's stealthiness, we utilize a reconstruction loss to minimize visual discrepancies between poisoned and clean images. Additionally, we introduce a unified method for generating attack data. IAG is evaluated theoretically and empirically, demonstrating its feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches over 65\% on various testing sets. IAG also shows promising potential on manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on clean samples. Extensive specific experiments, such as ablation study and potential defense, also indicate the robustness and transferability of our attack.
PDF62August 14, 2025