IAG : Attaque par porte dérobée sensible à l'entrée sur les modèles de langage visuel pour l'ancrage visuel
IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
August 13, 2025
papers.authors: Junxian Li, Beining Xu, Di Zhang
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont montré des avancées significatives dans des tâches telles que l'ancrage visuel, où ils localisent des objets spécifiques dans des images en fonction de requêtes en langage naturel et d'images. Cependant, les problèmes de sécurité dans les tâches d'ancrage visuel pour les VLMs restent peu explorés, en particulier dans le contexte des attaques par porte dérobée. Dans cet article, nous introduisons une nouvelle méthode d'attaque par porte dérobée sensible à l'entrée, IAG, conçue pour manipuler le comportement d'ancrage des VLMs. Cette attaque force le modèle à ancrer un objet cible spécifique dans l'image d'entrée, indépendamment de la requête de l'utilisateur. Nous proposons un générateur de déclencheurs adaptatif qui intègre les informations sémantiques de la description de la cible d'attaque dans l'image originale à l'aide d'un U-Net conditionné par le texte, surmontant ainsi le défi de l'attaque à vocabulaire ouvert. Pour garantir la discrétion de l'attaque, nous utilisons une perte de reconstruction pour minimiser les écarts visuels entre les images empoisonnées et les images propres. De plus, nous introduisons une méthode unifiée pour générer des données d'attaque. IAG est évalué théoriquement et empiriquement, démontrant sa faisabilité et son efficacité. Notamment, notre ASR@0.5 sur InternVL-2.5-8B atteint plus de 65\% sur divers ensembles de test. IAG montre également un potentiel prometteur pour manipuler Ferret-7B et LlaVA-1.5-7B avec une très faible diminution de la précision sur les échantillons propres. Des expériences spécifiques approfondies, telles que l'étude d'ablation et la défense potentielle, indiquent également la robustesse et la transférabilité de notre attaque.
English
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.