Visuele Backdoor-aanvallen op Belichaamde Besluitvorming van MLLM's via Contrastief Triggerleren
Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
October 31, 2025
Auteurs: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLM's) hebben een stap voorwaarts betekend voor belichaamde agents door directe waarneming, redenering en planning van taakgerichte acties op basis van visuele invoer mogelijk te maken. Dergelijke visueel gedreven belichaamde agents creëren echter een nieuw aanvalsoppervlak: visuele backdoor-aanvallen, waarbij de agent zich normaal gedraagt totdat een visuele trigger in de scène verschijnt, waarna hij persistent een door de aanvaller gespecificeerd meerstappenbeleid uitvoert. Wij introduceren BEAT, het eerste raamwerk om dergelijke visuele backdoors in MLLM-gebaseerde belichaamde agents te injecteren met behulp van objecten in de omgeving als triggers. In tegenstelling tot tekstuele triggers vertonen objecttriggers grote variatie over viewpoints en belichting heen, wat het moeilijk maakt ze betrouwbaar in te planten. BEAT lost deze uitdaging op door (1) een trainingsset te construeren die diverse scènes, taken en triggerplaatsingen omvat om agents bloot te stellen aan triggervariabiliteit, en (2) een tweefasen-trainingsschema te introduceren dat eerst supervised fine-tuning (SFT) toepast en vervolgens onze nieuwe Contrastive Trigger Learning (CTL). CTL formuleert triggerdiscriminatie als preference learning tussen invoer met en zonder trigger, waarbij expliciet de beslissingsgrenzen wordt aangescherpt om precieze backdoor-activatie te garanderen. Over verschillende benchmarks voor belichaamde agents en MLLM's heen behaalt BEAT aanvalssuccespercentages tot 80%, terwijl het sterke prestaties op goedaardige taken behoudt, en generaliseert het betrouwbaar naar out-of-distribution triggerplaatsingen. Opmerkelijk is dat CTL, vergeleken met naïeve SFT, de backdoor-activatie-accuraatheid met tot 39% verhoogt onder beperkte backdoor-data. Deze bevindingen blootleggen een kritiek, doch onontgonnen, veiligheidsrisico in MLLM-gebaseerde belichaamde agents, en benadrukken de noodzaak van robuuste verdedigingsmechanismen vóór inzet in de echte wereld.
English
Multimodal large language models (MLLMs) have advanced embodied agents by
enabling direct perception, reasoning, and planning task-oriented actions from
visual inputs. However, such vision driven embodied agents open a new attack
surface: visual backdoor attacks, where the agent behaves normally until a
visual trigger appears in the scene, then persistently executes an
attacker-specified multi-step policy. We introduce BEAT, the first framework to
inject such visual backdoors into MLLM-based embodied agents using objects in
the environments as triggers. Unlike textual triggers, object triggers exhibit
wide variation across viewpoints and lighting, making them difficult to implant
reliably. BEAT addresses this challenge by (1) constructing a training set that
spans diverse scenes, tasks, and trigger placements to expose agents to trigger
variability, and (2) introducing a two-stage training scheme that first applies
supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning
(CTL). CTL formulates trigger discrimination as preference learning between
trigger-present and trigger-free inputs, explicitly sharpening the decision
boundaries to ensure precise backdoor activation. Across various embodied agent
benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while
maintaining strong benign task performance, and generalizes reliably to
out-of-distribution trigger placements. Notably, compared to naive SFT, CTL
boosts backdoor activation accuracy up to 39% under limited backdoor data.
These findings expose a critical yet unexplored security risk in MLLM-based
embodied agents, underscoring the need for robust defenses before real-world
deployment.