Attacchi Backdoor Visivi sul Processo Decisionale Embodied dei MLLM tramite Apprendimento Contrastivo di Trigger
Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
October 31, 2025
Autori: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire gli agenti embodied consentendo la percezione diretta, il ragionamento e la pianificazione di azioni orientate al compito a partire da input visivi. Tuttavia, tali agenti embodied guidati dalla visione aprono una nuova superficie di attacco: gli attacchi backdoor visivi, in cui l'agente si comporta normalmente fino a quando un trigger visivo appare nella scena, per poi eseguire persistentemente una politica multi-step specificata dall'attaccante. Introduciamo BEAT, il primo framework per iniettare tali backdoor visivi in agenti embodied basati su MLLM utilizzando oggetti nell'ambiente come trigger. A differenza dei trigger testuali, i trigger oggetto presentano un'ampia variazione tra punti di vista e condizioni di illuminazione, rendendoli difficili da impiantare in modo affidabile. BEAT affronta questa sfida (1) costruendo un set di training che abbraccia scene, compiti e posizionamenti dei trigger diversificati per esporre gli agenti alla variabilità del trigger, e (2) introducendo uno schema di training a due stadi che applica prima il fine-tuning supervisionato (SFT) e poi la nostra nuova Contrastive Trigger Learning (CTL). La CTL formula la discriminazione del trigger come un apprendimento per preferenza tra input con trigger presente e assente, affilando esplicitamente i confini decisionali per garantire un'attivazione precisa del backdoor. In vari benchmark per agenti embodied e su diversi MLLM, BEAT raggiunge tassi di successo dell'attacco fino all'80%, mantenendo al contempo solide prestazioni nelle attività benigne, e si generalizza in modo affidabile a posizionamenti di trigger fuori distribuzione. Significativamente, rispetto al SFT ingenuo, la CTL aumenta l'accuratezza di attivazione del backdoor fino al 39% in condizioni di dati backdoor limitati. Questi risultati espongono un rischio per la sicurezza critico e inesplorato negli agenti embodied basati su MLLM, sottolineando la necessità di difese robuste prima del dispiegamento nel mondo reale.
English
Multimodal large language models (MLLMs) have advanced embodied agents by
enabling direct perception, reasoning, and planning task-oriented actions from
visual inputs. However, such vision driven embodied agents open a new attack
surface: visual backdoor attacks, where the agent behaves normally until a
visual trigger appears in the scene, then persistently executes an
attacker-specified multi-step policy. We introduce BEAT, the first framework to
inject such visual backdoors into MLLM-based embodied agents using objects in
the environments as triggers. Unlike textual triggers, object triggers exhibit
wide variation across viewpoints and lighting, making them difficult to implant
reliably. BEAT addresses this challenge by (1) constructing a training set that
spans diverse scenes, tasks, and trigger placements to expose agents to trigger
variability, and (2) introducing a two-stage training scheme that first applies
supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning
(CTL). CTL formulates trigger discrimination as preference learning between
trigger-present and trigger-free inputs, explicitly sharpening the decision
boundaries to ensure precise backdoor activation. Across various embodied agent
benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while
maintaining strong benign task performance, and generalizes reliably to
out-of-distribution trigger placements. Notably, compared to naive SFT, CTL
boosts backdoor activation accuracy up to 39% under limited backdoor data.
These findings expose a critical yet unexplored security risk in MLLM-based
embodied agents, underscoring the need for robust defenses before real-world
deployment.