Ataques de Backdoor Visual na Tomada de Decisão Embarcada de MLLMs por meio de Aprendizado de Gatilho Contrastivo

Resumo

Os modelos de linguagem multimodal (MLLMs) avançaram os agentes incorporados ao permitir a percepção direta, o raciocínio e o planejamento de ações orientadas por tarefas a partir de entradas visuais. No entanto, tais agentes incorporados orientados por visão abrem uma nova superfície de ataque: os ataques de backdoor visual, nos quais o agente se comporta normalmente até que um gatilho visual apareça na cena, executando então persistentemente uma política de múltiplas etapas especificada pelo atacante. Apresentamos o BEAT, o primeiro framework para injetar tais backdoors visuais em agentes incorporados baseados em MLLM usando objetos no ambiente como gatilhos. Diferente de gatilhos textuais, os gatilhos de objeto exibem grande variação entre pontos de vista e iluminação, tornando-os difíceis de implantar de forma confiável. O BEAT aborda este desafio (1) construindo um conjunto de treinamento que abrange cenas, tarefas e posicionamentos de gatilho diversos para expor os agentes à variabilidade do gatilho, e (2) introduzindo um esquema de treinamento em dois estágios que primeiro aplica ajuste fino supervisionado (SFT) e depois nossa nova Aprendizagem de Gatilho por Contraste (CTL). A CTL formula a discriminação de gatilhos como uma aprendizagem de preferência entre entradas com e sem gatilho, aguçando explicitamente as fronteiras de decisão para garantir uma ativação precisa do backdoor. Em vários benchmarks de agentes incorporados e MLLMs, o BEAT atinge taxas de sucesso de ataque de até 80%, mantendo um forte desempenho em tarefas benignas e generalizando de forma confiável para posicionamentos de gatilho fora da distribuição. Notavelmente, em comparação com o SFT simples, a CTL aumenta a precisão de ativação do backdoor em até 39% sob dados limitados de backdoor. Essas descobertas expõem um risco de segurança crítico e ainda não explorado em agentes incorporados baseados em MLLM, ressaltando a necessidade de defesas robustas antes da implantação no mundo real.

English

Multimodal large language models (MLLMs) have advanced embodied agents by enabling direct perception, reasoning, and planning task-oriented actions from visual inputs. However, such vision driven embodied agents open a new attack surface: visual backdoor attacks, where the agent behaves normally until a visual trigger appears in the scene, then persistently executes an attacker-specified multi-step policy. We introduce BEAT, the first framework to inject such visual backdoors into MLLM-based embodied agents using objects in the environments as triggers. Unlike textual triggers, object triggers exhibit wide variation across viewpoints and lighting, making them difficult to implant reliably. BEAT addresses this challenge by (1) constructing a training set that spans diverse scenes, tasks, and trigger placements to expose agents to trigger variability, and (2) introducing a two-stage training scheme that first applies supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning (CTL). CTL formulates trigger discrimination as preference learning between trigger-present and trigger-free inputs, explicitly sharpening the decision boundaries to ensure precise backdoor activation. Across various embodied agent benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while maintaining strong benign task performance, and generalizes reliably to out-of-distribution trigger placements. Notably, compared to naive SFT, CTL boosts backdoor activation accuracy up to 39% under limited backdoor data. These findings expose a critical yet unexplored security risk in MLLM-based embodied agents, underscoring the need for robust defenses before real-world deployment.

Ataques de Backdoor Visual na Tomada de Decisão Embarcada de MLLMs por meio de Aprendizado de Gatilho Contrastivo

Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning

Resumo

Support