IAG : Attaque par porte dérobée sensible à l'entrée sur les modèles de langage visuel pour l'ancrage visuel

papers.abstract

Les modèles vision-langage (VLMs) ont montré des avancées significatives dans des tâches telles que l'ancrage visuel, où ils localisent des objets spécifiques dans des images en fonction de requêtes en langage naturel et d'images. Cependant, les problèmes de sécurité dans les tâches d'ancrage visuel pour les VLMs restent peu explorés, en particulier dans le contexte des attaques par porte dérobée. Dans cet article, nous introduisons une nouvelle méthode d'attaque par porte dérobée sensible à l'entrée, IAG, conçue pour manipuler le comportement d'ancrage des VLMs. Cette attaque force le modèle à ancrer un objet cible spécifique dans l'image d'entrée, indépendamment de la requête de l'utilisateur. Nous proposons un générateur de déclencheurs adaptatif qui intègre les informations sémantiques de la description de la cible d'attaque dans l'image originale à l'aide d'un U-Net conditionné par le texte, surmontant ainsi le défi de l'attaque à vocabulaire ouvert. Pour garantir la discrétion de l'attaque, nous utilisons une perte de reconstruction pour minimiser les écarts visuels entre les images empoisonnées et les images propres. De plus, nous introduisons une méthode unifiée pour générer des données d'attaque. IAG est évalué théoriquement et empiriquement, démontrant sa faisabilité et son efficacité. Notamment, notre ASR@0.5 sur InternVL-2.5-8B atteint plus de 65\% sur divers ensembles de test. IAG montre également un potentiel prometteur pour manipuler Ferret-7B et LlaVA-1.5-7B avec une très faible diminution de la précision sur les échantillons propres. Des expériences spécifiques approfondies, telles que l'étude d'ablation et la défense potentielle, indiquent également la robustesse et la transférabilité de notre attaque.

English

Vision-language models (VLMs) have shown significant advancements in tasks such as visual grounding, where they localize specific objects in images based on natural language queries and images. However, security issues in visual grounding tasks for VLMs remain underexplored, especially in the context of backdoor attacks. In this paper, we introduce a novel input-aware backdoor attack method, IAG, designed to manipulate the grounding behavior of VLMs. This attack forces the model to ground a specific target object in the input image, regardless of the user's query. We propose an adaptive trigger generator that embeds the semantic information of the attack target's description into the original image using a text-conditional U-Net, thereby overcoming the open-vocabulary attack challenge. To ensure the attack's stealthiness, we utilize a reconstruction loss to minimize visual discrepancies between poisoned and clean images. Additionally, we introduce a unified method for generating attack data. IAG is evaluated theoretically and empirically, demonstrating its feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches over 65\% on various testing sets. IAG also shows promising potential on manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on clean samples. Extensive specific experiments, such as ablation study and potential defense, also indicate the robustness and transferability of our attack.

IAG : Attaque par porte dérobée sensible à l'entrée sur les modèles de langage visuel pour l'ancrage visuel

IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

papers.abstract

Support