Ataques de Backdoor Visual na Tomada de Decisão Embarcada de MLLMs por meio de Aprendizado de Gatilho Contrastivo
Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
October 31, 2025
Autores: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
cs.AI
Resumo
Os modelos de linguagem multimodal (MLLMs) avançaram os agentes incorporados ao permitir a percepção direta, o raciocínio e o planejamento de ações orientadas por tarefas a partir de entradas visuais. No entanto, tais agentes incorporados orientados por visão abrem uma nova superfície de ataque: os ataques de backdoor visual, nos quais o agente se comporta normalmente até que um gatilho visual apareça na cena, executando então persistentemente uma política de múltiplas etapas especificada pelo atacante. Apresentamos o BEAT, o primeiro framework para injetar tais backdoors visuais em agentes incorporados baseados em MLLM usando objetos no ambiente como gatilhos. Diferente de gatilhos textuais, os gatilhos de objeto exibem grande variação entre pontos de vista e iluminação, tornando-os difíceis de implantar de forma confiável. O BEAT aborda este desafio (1) construindo um conjunto de treinamento que abrange cenas, tarefas e posicionamentos de gatilho diversos para expor os agentes à variabilidade do gatilho, e (2) introduzindo um esquema de treinamento em dois estágios que primeiro aplica ajuste fino supervisionado (SFT) e depois nossa nova Aprendizagem de Gatilho por Contraste (CTL). A CTL formula a discriminação de gatilhos como uma aprendizagem de preferência entre entradas com e sem gatilho, aguçando explicitamente as fronteiras de decisão para garantir uma ativação precisa do backdoor. Em vários benchmarks de agentes incorporados e MLLMs, o BEAT atinge taxas de sucesso de ataque de até 80%, mantendo um forte desempenho em tarefas benignas e generalizando de forma confiável para posicionamentos de gatilho fora da distribuição. Notavelmente, em comparação com o SFT simples, a CTL aumenta a precisão de ativação do backdoor em até 39% sob dados limitados de backdoor. Essas descobertas expõem um risco de segurança crítico e ainda não explorado em agentes incorporados baseados em MLLM, ressaltando a necessidade de defesas robustas antes da implantação no mundo real.
English
Multimodal large language models (MLLMs) have advanced embodied agents by
enabling direct perception, reasoning, and planning task-oriented actions from
visual inputs. However, such vision driven embodied agents open a new attack
surface: visual backdoor attacks, where the agent behaves normally until a
visual trigger appears in the scene, then persistently executes an
attacker-specified multi-step policy. We introduce BEAT, the first framework to
inject such visual backdoors into MLLM-based embodied agents using objects in
the environments as triggers. Unlike textual triggers, object triggers exhibit
wide variation across viewpoints and lighting, making them difficult to implant
reliably. BEAT addresses this challenge by (1) constructing a training set that
spans diverse scenes, tasks, and trigger placements to expose agents to trigger
variability, and (2) introducing a two-stage training scheme that first applies
supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning
(CTL). CTL formulates trigger discrimination as preference learning between
trigger-present and trigger-free inputs, explicitly sharpening the decision
boundaries to ensure precise backdoor activation. Across various embodied agent
benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while
maintaining strong benign task performance, and generalizes reliably to
out-of-distribution trigger placements. Notably, compared to naive SFT, CTL
boosts backdoor activation accuracy up to 39% under limited backdoor data.
These findings expose a critical yet unexplored security risk in MLLM-based
embodied agents, underscoring the need for robust defenses before real-world
deployment.