IAG: Eingabebewusster Backdoor-Angriff auf VLMs für visuelle Verankerung
IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
August 13, 2025
papers.authors: Junxian Li, Beining Xu, Di Zhang
cs.AI
papers.abstract
Vision-Language-Modelle (VLMs) haben bedeutende Fortschritte bei Aufgaben wie der visuellen Verankerung gezeigt, bei der sie spezifische Objekte in Bildern basierend auf natürlichen Sprachabfragen und Bildern lokalisieren. Sicherheitsprobleme bei visuellen Verankerungsaufgaben für VLMs bleiben jedoch weitgehend unerforscht, insbesondere im Kontext von Backdoor-Angriffen. In diesem Artikel stellen wir eine neuartige, eingabeabhängige Backdoor-Angriffsmethode namens IAG vor, die darauf abzielt, das Verankerungsverhalten von VLMs zu manipulieren. Dieser Angriff zwingt das Modell dazu, ein bestimmtes Zielobjekt im Eingabebild zu verankern, unabhängig von der Benutzerabfrage. Wir schlagen einen adaptiven Trigger-Generator vor, der die semantischen Informationen der Beschreibung des Angriffsziels mithilfe eines textkonditionierten U-Nets in das Originalbild einbettet und somit die Herausforderung des offenen Vokabulars bei Angriffen überwindet. Um die Unauffälligkeit des Angriffs zu gewährleisten, verwenden wir einen Rekonstruktionsverlust, um visuelle Unterschiede zwischen vergifteten und sauberen Bildern zu minimieren. Zusätzlich führen wir eine einheitliche Methode zur Generierung von Angriffsdaten ein. IAG wird theoretisch und empirisch evaluiert, wobei seine Machbarkeit und Wirksamkeit nachgewiesen wird. Bemerkenswert ist, dass unser ASR@0.5 auf InternVL-2.5-8B auf verschiedenen Testdatensätzen über 65 % erreicht. IAG zeigt auch vielversprechendes Potenzial bei der Manipulation von Ferret-7B und LlaVA-1.5-7B mit nur sehr geringer Genauigkeitsabnahme bei sauberen Proben. Umfangreiche spezifische Experimente, wie Ablationsstudien und potenzielle Verteidigungsmaßnahmen, belegen ebenfalls die Robustheit und Übertragbarkeit unseres Angriffs.
English
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.