ChatPaper.aiChatPaper

GateBreaker : Attaques guidées par les portes sur les LLMs à mixture d'experts

GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

December 24, 2025
papers.authors: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi
cs.AI

papers.abstract

Les architectures Mixture-of-Experts (MoE) ont fait progresser la mise à l'échelle des grands modèles de langage (LLM) en n'activant qu'un sous-ensemble parcimonieux de paramètres par entrée, permettant ainsi des performances de pointe à un coût computationnel réduit. Alors que ces modèles sont de plus en plus déployés dans des domaines critiques, comprendre et renforcer leurs mécanismes d'alignement est essentiel pour prévenir les résultats nuisibles. Cependant, la recherche existante sur la sécurité des LLM s'est concentrée presque exclusivement sur les architectures denses, laissant les propriétés de sécurité uniques des MoE largement inexplorées. La conception modulaire et à activation parcimonieuse des MoE suggère que les mécanismes de sécurité pourraient fonctionner différemment que dans les modèles denses, soulevant des questions sur leur robustesse. Dans cet article, nous présentons GateBreaker, le premier cadre d'attaque non supervisé, léger et agnostique à l'architecture qui compromet l'alignement de sécurité des MoE LLM modernes au moment de l'inférence. GateBreaker opère en trois étapes : (i) le profilage au niveau des portes, qui identifie les experts de sécurité acheminés de manière disproportionnée sur des entrées nuisibles, (ii) la localisation au niveau des experts, qui localise la structure de sécurité au sein des experts de sécurité, et (iii) la suppression ciblée de la sécurité, qui désactive la structure de sécurité identifiée pour compromettre l'alignement de sécurité. Notre étude montre que la sécurité des MoE se concentre au sein d'un petit sous-ensemble de neurones coordonnés par un routage parcimonieux. La désactivation sélective de ces neurones, représentant environ 3 % des neurones dans les couches d'experts ciblées, augmente significativement le taux de réussite moyen des attaques (ASR) de 7,4 % à 64,9 % contre les huit derniers MoE LLM alignés, avec une dégradation limitée de l'utilité. Ces neurones de sécurité se transfèrent entre les modèles d'une même famille, augmentant l'ASR de 17,9 % à 67,7 % avec une attaque de transfert en un seul essai. De plus, GateBreaker se généralise à cinq modèles de langage visuel (VLM) de type MoE, atteignant un ASR de 60,9 % sur des entrées d'image non sécurisées.
English
Mixture-of-Experts (MoE) architectures have advanced the scaling of Large Language Models (LLMs) by activating only a sparse subset of parameters per input, enabling state-of-the-art performance with reduced computational cost. As these models are increasingly deployed in critical domains, understanding and strengthening their alignment mechanisms is essential to prevent harmful outputs. However, existing LLM safety research has focused almost exclusively on dense architectures, leaving the unique safety properties of MoEs largely unexamined. The modular, sparsely-activated design of MoEs suggests that safety mechanisms may operate differently than in dense models, raising questions about their robustness. In this paper, we present GateBreaker, the first training-free, lightweight, and architecture-agnostic attack framework that compromises the safety alignment of modern MoE LLMs at inference time. GateBreaker operates in three stages: (i) gate-level profiling, which identifies safety experts disproportionately routed on harmful inputs, (ii) expert-level localization, which localizes the safety structure within safety experts, and (iii) targeted safety removal, which disables the identified safety structure to compromise the safety alignment. Our study shows that MoE safety concentrates within a small subset of neurons coordinated by sparse routing. Selective disabling of these neurons, approximately 3% of neurons in the targeted expert layers, significantly increases the averaged attack success rate (ASR) from 7.4% to 64.9% against the eight latest aligned MoE LLMs with limited utility degradation. These safety neurons transfer across models within the same family, raising ASR from 17.9% to 67.7% with one-shot transfer attack. Furthermore, GateBreaker generalizes to five MoE vision language models (VLMs) with 60.9% ASR on unsafe image inputs.
PDF01January 1, 2026