대비적 트리거 학습을 통한 MLLM 구현형 의사 결정에 대한 시각적 백도어 공격
Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
October 31, 2025
저자: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 시각 입력으로부터 직접적인 인지, 추론, 작업 지향적 행동 계획을 가능하게 함으로써 구현 에이전트의 성능을 향상시켜 왔습니다. 그러나 이러한 시각 주도형 구현 에이전트는 새로운 공격 표면을 열었습니다: 시각 백도어 공격으로, 에이전트는 일반적으로 동작하다가 환경에서 시각적 트리거가 나타나면 공격자가 지정한 다단계 정책을 지속적으로 실행합니다. 본 연구는 환경 내 객체를 트리거로 활용하여 MLLM 기반 구현 에이전트에 이러한 시각 백도어를 주입하는 최초의 프레임워크인 BEAT를 소개합니다. 텍스트 트리거와 달리 객체 트리거는 시점과 조명에 따라 광범위한 변화를 보여 신뢰성 높은 주입이 어렵습니다. BEAT는 (1) 다양한 장면, 작업, 트리거 배치를 아우르는 훈련 세트를 구축하여 에이전트가 트리거 변동성에 노출되도록 하고, (2) 지도 미세 조정(SFT)을 먼저 적용한 후 새로운 대조 트리거 학습(CTL)을 도입하는 두 단계 훈련 방식을 제시하여 이 문제를 해결합니다. CTL은 트리거 식별을 트리거 존재 입력과 트리거 무입력 간의 선호도 학습으로 공식화하여 명시적인 결정 경계를 선명하게 만들어 정확한 백도어 활성화를 보장합니다. 다양한 구현 에이전트 벤치마크와 MLLM에서 BEAT는 최대 80%의 공격 성공률을 달성하면서도 강력한 정상 작업 성능을 유지하고, 분포 외 트리거 배치에도 안정적으로 일반화합니다. 특히, 단순 SFT 대비 CTL은 제한된 백도어 데이터 조건에서 백도어 활성화 정확도를 최대 39%까지 향상시켰습니다. 이러한 결과는 MLLM 기반 구현 에이전트의 중요하지만 탐구되지 않은 보안 위험을 드러내며, 실제 배치 전에 견고한 방어 체계의 필요성을 강조합니다.
English
Multimodal large language models (MLLMs) have advanced embodied agents by
enabling direct perception, reasoning, and planning task-oriented actions from
visual inputs. However, such vision driven embodied agents open a new attack
surface: visual backdoor attacks, where the agent behaves normally until a
visual trigger appears in the scene, then persistently executes an
attacker-specified multi-step policy. We introduce BEAT, the first framework to
inject such visual backdoors into MLLM-based embodied agents using objects in
the environments as triggers. Unlike textual triggers, object triggers exhibit
wide variation across viewpoints and lighting, making them difficult to implant
reliably. BEAT addresses this challenge by (1) constructing a training set that
spans diverse scenes, tasks, and trigger placements to expose agents to trigger
variability, and (2) introducing a two-stage training scheme that first applies
supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning
(CTL). CTL formulates trigger discrimination as preference learning between
trigger-present and trigger-free inputs, explicitly sharpening the decision
boundaries to ensure precise backdoor activation. Across various embodied agent
benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while
maintaining strong benign task performance, and generalizes reliably to
out-of-distribution trigger placements. Notably, compared to naive SFT, CTL
boosts backdoor activation accuracy up to 39% under limited backdoor data.
These findings expose a critical yet unexplored security risk in MLLM-based
embodied agents, underscoring the need for robust defenses before real-world
deployment.