IAG: Входно-ориентированная атака "троянского коня" на визуально-языковые модели для визуального привязывания
IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding
August 13, 2025
Авторы: Junxian Li, Beining Xu, Di Zhang
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют значительные успехи в задачах, таких как визуальное заземление, где они локализуют определённые объекты на изображениях на основе естественно-языковых запросов и самих изображений. Однако вопросы безопасности в задачах визуального заземления для VLMs остаются недостаточно изученными, особенно в контексте бэкдор-атак. В данной работе мы представляем новый метод бэкдор-атаки, адаптируемый к входным данным (IAG), предназначенный для манипуляции поведением заземления VLMs. Эта атака заставляет модель заземлять определённый целевой объект на входном изображении независимо от запроса пользователя. Мы предлагаем адаптивный генератор триггеров, который внедряет семантическую информацию описания цели атаки в исходное изображение с использованием текстово-условной U-Net, тем самым преодолевая проблему атак на открытый словарь. Для обеспечения скрытности атаки мы используем потерю реконструкции, чтобы минимизировать визуальные различия между отравленными и чистыми изображениями. Кроме того, мы представляем унифицированный метод генерации данных для атаки. IAG оценивается теоретически и эмпирически, демонстрируя свою осуществимость и эффективность. В частности, наш показатель ASR@0.5 на модели InternVL-2.5-8B достигает более 65% на различных тестовых наборах. IAG также показывает многообещающий потенциал в манипуляции моделями Ferret-7B и LlaVA-1.5-7B с минимальным снижением точности на чистых образцах. Обширные эксперименты, такие как исследование абляции и потенциальной защиты, также указывают на устойчивость и переносимость нашей атаки.
English
Vision-language models (VLMs) have shown significant advancements in tasks
such as visual grounding, where they localize specific objects in images based
on natural language queries and images. However, security issues in visual
grounding tasks for VLMs remain underexplored, especially in the context of
backdoor attacks. In this paper, we introduce a novel input-aware backdoor
attack method, IAG, designed to manipulate the grounding behavior of VLMs. This
attack forces the model to ground a specific target object in the input image,
regardless of the user's query. We propose an adaptive trigger generator that
embeds the semantic information of the attack target's description into the
original image using a text-conditional U-Net, thereby overcoming the
open-vocabulary attack challenge. To ensure the attack's stealthiness, we
utilize a reconstruction loss to minimize visual discrepancies between poisoned
and clean images. Additionally, we introduce a unified method for generating
attack data. IAG is evaluated theoretically and empirically, demonstrating its
feasibility and effectiveness. Notably, our ASR@0.5 on InternVL-2.5-8B reaches
over 65\% on various testing sets. IAG also shows promising potential on
manipulating Ferret-7B and LlaVA-1.5-7B with very little accuracy decrease on
clean samples. Extensive specific experiments, such as ablation study and
potential defense, also indicate the robustness and transferability of our
attack.