コントラストトリガー学習によるMLLM具体化意思決定への視覚的バックドア攻撃
Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
October 31, 2025
著者: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、視覚入力を直接知覚し、推論し、タスク指向の行動計画を可能にすることで、具身化エージェントの性能を向上させてきた。しかし、このような視覚駆動型の具身化エージェントは新たな攻撃面を開くものである。すなわち、視覚的バックドア攻撃であり、エージェントは通常通り動作するが、シーン内に視覚的トリガーが現れると、攻撃者が指定したマルチステップのポリシーを持続的に実行する。本研究では、BEATを提案する。これは、環境内のオブジェクトをトリガーとして用いて、MLLMベースの具身化エージェントにこのような視覚的バックドアを埋め込む初めてのフレームワークである。テキストトリガーとは異なり、オブジェクトトリガーは視点や照明によって大きく見え方が変化するため、信頼性高く埋め込むことが困難である。BEATはこの課題を、(1) 多様なシーン、タスク、トリガー配置を網羅するトレーニングセットを構築し、エージェントをトリガーの変動に晒すこと、および (2) 教師ありファインチューニング(SFT)を適用した後、新規提案のContrastive Trigger Learning(CTL)を行うという2段階のトレーニングスキームを導入することで解決する。CTLは、トリガー有無の入力間の選好学習としてトリガー識別を定式化し、決定境界を明示的に鋭くすることで、正確なバックドアの発動を保証する。様々な具身化エージェントのベンチマークとMLLMにおいて、BEATは最大80%の攻撃成功率を達成し、高い良性タスク性能を維持しつつ、分布外のトリガー配置に対しても信頼性高く汎化した。特に、単純なSFTと比較して、CTLは限られたバックドアデータ下でバックドア発動精度を最大39%向上させた。これらの発見は、MLLMベースの具身化エージェントにおける重大かつ未開拓のセキュリティリスクを露呈するものであり、実世界での展開前に堅牢な防御策が必要であることを強調している。
English
Multimodal large language models (MLLMs) have advanced embodied agents by
enabling direct perception, reasoning, and planning task-oriented actions from
visual inputs. However, such vision driven embodied agents open a new attack
surface: visual backdoor attacks, where the agent behaves normally until a
visual trigger appears in the scene, then persistently executes an
attacker-specified multi-step policy. We introduce BEAT, the first framework to
inject such visual backdoors into MLLM-based embodied agents using objects in
the environments as triggers. Unlike textual triggers, object triggers exhibit
wide variation across viewpoints and lighting, making them difficult to implant
reliably. BEAT addresses this challenge by (1) constructing a training set that
spans diverse scenes, tasks, and trigger placements to expose agents to trigger
variability, and (2) introducing a two-stage training scheme that first applies
supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning
(CTL). CTL formulates trigger discrimination as preference learning between
trigger-present and trigger-free inputs, explicitly sharpening the decision
boundaries to ensure precise backdoor activation. Across various embodied agent
benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while
maintaining strong benign task performance, and generalizes reliably to
out-of-distribution trigger placements. Notably, compared to naive SFT, CTL
boosts backdoor activation accuracy up to 39% under limited backdoor data.
These findings expose a critical yet unexplored security risk in MLLM-based
embodied agents, underscoring the need for robust defenses before real-world
deployment.