Visuele Backdoor-aanvallen op Belichaamde Besluitvorming van MLLM's via Contrastief Triggerleren

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben een stap voorwaarts betekend voor belichaamde agents door directe waarneming, redenering en planning van taakgerichte acties op basis van visuele invoer mogelijk te maken. Dergelijke visueel gedreven belichaamde agents creëren echter een nieuw aanvalsoppervlak: visuele backdoor-aanvallen, waarbij de agent zich normaal gedraagt totdat een visuele trigger in de scène verschijnt, waarna hij persistent een door de aanvaller gespecificeerd meerstappenbeleid uitvoert. Wij introduceren BEAT, het eerste raamwerk om dergelijke visuele backdoors in MLLM-gebaseerde belichaamde agents te injecteren met behulp van objecten in de omgeving als triggers. In tegenstelling tot tekstuele triggers vertonen objecttriggers grote variatie over viewpoints en belichting heen, wat het moeilijk maakt ze betrouwbaar in te planten. BEAT lost deze uitdaging op door (1) een trainingsset te construeren die diverse scènes, taken en triggerplaatsingen omvat om agents bloot te stellen aan triggervariabiliteit, en (2) een tweefasen-trainingsschema te introduceren dat eerst supervised fine-tuning (SFT) toepast en vervolgens onze nieuwe Contrastive Trigger Learning (CTL). CTL formuleert triggerdiscriminatie als preference learning tussen invoer met en zonder trigger, waarbij expliciet de beslissingsgrenzen wordt aangescherpt om precieze backdoor-activatie te garanderen. Over verschillende benchmarks voor belichaamde agents en MLLM's heen behaalt BEAT aanvalssuccespercentages tot 80%, terwijl het sterke prestaties op goedaardige taken behoudt, en generaliseert het betrouwbaar naar out-of-distribution triggerplaatsingen. Opmerkelijk is dat CTL, vergeleken met naïeve SFT, de backdoor-activatie-accuraatheid met tot 39% verhoogt onder beperkte backdoor-data. Deze bevindingen blootleggen een kritiek, doch onontgonnen, veiligheidsrisico in MLLM-gebaseerde belichaamde agents, en benadrukken de noodzaak van robuuste verdedigingsmechanismen vóór inzet in de echte wereld.

English

Multimodal large language models (MLLMs) have advanced embodied agents by enabling direct perception, reasoning, and planning task-oriented actions from visual inputs. However, such vision driven embodied agents open a new attack surface: visual backdoor attacks, where the agent behaves normally until a visual trigger appears in the scene, then persistently executes an attacker-specified multi-step policy. We introduce BEAT, the first framework to inject such visual backdoors into MLLM-based embodied agents using objects in the environments as triggers. Unlike textual triggers, object triggers exhibit wide variation across viewpoints and lighting, making them difficult to implant reliably. BEAT addresses this challenge by (1) constructing a training set that spans diverse scenes, tasks, and trigger placements to expose agents to trigger variability, and (2) introducing a two-stage training scheme that first applies supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning (CTL). CTL formulates trigger discrimination as preference learning between trigger-present and trigger-free inputs, explicitly sharpening the decision boundaries to ensure precise backdoor activation. Across various embodied agent benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while maintaining strong benign task performance, and generalizes reliably to out-of-distribution trigger placements. Notably, compared to naive SFT, CTL boosts backdoor activation accuracy up to 39% under limited backdoor data. These findings expose a critical yet unexplored security risk in MLLM-based embodied agents, underscoring the need for robust defenses before real-world deployment.

Visuele Backdoor-aanvallen op Belichaamde Besluitvorming van MLLM's via Contrastief Triggerleren

Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning

Samenvatting

Support