IAG: Input-afhankelijke Backdoor-aanval op VLMs voor Visuele Verankering
IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
August 13, 2025
Auteurs: Junxian Li, Beining Xu, Di Zhang
cs.AI
Samenvatting
Vision-language models (VLMs) hebben aanzienlijke vooruitgang geboekt in taken zoals visuele verankering, waarbij ze specifieke objecten in afbeeldingen lokaliseren op basis van natuurlijke taalvragen en afbeeldingen. Echter blijven beveiligingsproblemen in visuele verankerings taken voor VLMs onderbelicht, vooral in de context van backdoor-aanvallen. In dit artikel introduceren we een nieuwe input-aware backdoor-aanvalsmethode, IAG, ontworpen om het verankeringsgedrag van VLMs te manipuleren. Deze aanval dwingt het model om een specifiek doelobject in de invoerafbeelding te verankeren, ongeacht de vraag van de gebruiker. We stellen een adaptieve triggergenerator voor die de semantische informatie van de beschrijving van het aanvalsdoel in de originele afbeelding inbedt met behulp van een tekst-conditionele U-Net, waardoor de uitdaging van open-vocabulary aanvallen wordt overwonnen. Om de stealthiness van de aanval te waarborgen, gebruiken we een reconstructieverlies om visuele discrepanties tussen vergiftigde en schone afbeeldingen te minimaliseren. Daarnaast introduceren we een uniforme methode voor het genereren van aanvalsgegevens. IAG wordt theoretisch en empirisch geëvalueerd, wat de haalbaarheid en effectiviteit ervan aantoont. Opmerkelijk is dat onze ASR@0.5 op InternVL-2.5-8B meer dan 65\% bereikt op verschillende test sets. IAG toont ook veelbelovend potentieel in het manipuleren van Ferret-7B en LlaVA-1.5-7B met een zeer kleine nauwkeurigheidsafname op schone samples. Uitgebreide specifieke experimenten, zoals een ablatiestudie en potentiële verdediging, geven ook de robuustheid en overdraagbaarheid van onze aanval aan.
English
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.