SlowBA: Эффективная бэкдор-атака на GUI-агентов на основе визуально-языковых моделей

Аннотация

Современные агенты графического интерфейса пользователя (GUI) на основе визуально-языковых моделей (VLM) должны не только точно выполнять действия, но и оперативно реагировать на пользовательские инструкции. В то время как существующие исследования безопасности GUI-агентов в основном сосредоточены на манипулировании корректностью действий, риски безопасности, связанные с эффективностью отклика, остаются практически не изученными. В данной статье мы представляем SlowBA — новую атаку типа «бэкдор», нацеленную на отзывчивость VLM-агентов GUI. Ключевая идея заключается в манипулировании задержкой ответа путем индуцирования чрезмерно длинных цепочек рассуждений при определенных триггерных паттернах. Для достижения этой цели мы предлагаем двухэтапную стратегию внедрения бэкдора на уровне вознаграждений (RBI), которая сначала выравнивает формат длинного ответа, а затем обучает триггерно-активируемое поведение с помощью обучения с подкреплением. Кроме того, мы разработали реалистичные всплывающие окна в качестве триггеров, естественным образом появляющихся в средах GUI, что повышает скрытность атаки. Многочисленные эксперименты на различных наборах данных и базовых моделях демонстрируют, что SlowBA способна значительно увеличить длину ответа и задержку, при этом в значительной степени сохраняя точность выполнения задач. Атака остается эффективной даже при малой доли заражения данных и в условиях применения нескольких защитных механизмов. Эти результаты выявляют ранее упускаемую уязвимость безопасности в GUI-агентах и подчеркивают необходимость разработки защитных мер, учитывающих как корректность действий, так и эффективность отклика. Код доступен по адресу https://github.com/tu-tuing/SlowBA.

English

Modern vision-language-model (VLM) based graphical user interface (GUI) agents are expected not only to execute actions accurately but also to respond to user instructions with low latency. While existing research on GUI-agent security mainly focuses on manipulating action correctness, the security risks related to response efficiency remain largely unexplored. In this paper, we introduce SlowBA, a novel backdoor attack that targets the responsiveness of VLM-based GUI agents. The key idea is to manipulate response latency by inducing excessively long reasoning chains under specific trigger patterns. To achieve this, we propose a two-stage reward-level backdoor injection (RBI) strategy that first aligns the long-response format and then learns trigger-aware activation through reinforcement learning. In addition, we design realistic pop-up windows as triggers that naturally appear in GUI environments, improving the stealthiness of the attack. Extensive experiments across multiple datasets and baselines demonstrate that SlowBA can significantly increase response length and latency while largely preserving task accuracy. The attack remains effective even with a small poisoning ratio and under several defense settings. These findings reveal a previously overlooked security vulnerability in GUI agents and highlight the need for defenses that consider both action correctness and response efficiency. Code can be found in https://github.com/tu-tuing/SlowBA.

SlowBA: Эффективная бэкдор-атака на GUI-агентов на основе визуально-языковых моделей

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Аннотация

Support