Lobotomie des grands modèles de langage : Contournement des systèmes Mixture-of-Experts par neutralisation d'experts
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
February 9, 2026
papers.authors: Jona te Lintelo, Lichao Wu, Stjepan Picek
cs.AI
papers.abstract
L'adoption rapide des architectures Mixture-of-Experts (MoE) marque un tournant majeur dans le déploiement des grands modèles de langage (LLM). Les LLM à base de MoE améliorent l'efficacité de la mise à l'échelle en n'activant qu'un petit sous-ensemble de paramètres par token, mais leur structure de routage introduit de nouvelles surfaces d'attaque liées à la sécurité. Nous constatons que les comportements critiques pour la sécurité dans les MoE LLM (par exemple, le refus de répondre) sont concentrés dans un petit ensemble d'experts plutôt que d'être uniformément distribués. En nous appuyant sur cela, nous proposons la Lobotomie des Grands Modèles de Langage (L^3), une attaque agnostique à l'architecture et ne nécessitant pas d'entraînement, qui compromet l'alignement de sécurité en exploitant la dynamique de routage des experts. L^3 apprend les motifs de routage corrélés au refus, attribue le comportement de sécurité à des experts spécifiques et réduit au silence de manière adaptative les experts les plus pertinents pour la sécurité jusqu'à ce que des sorties nuisibles soient produites. Nous évaluons L^3 sur huit MoE LLM open-source de pointe et montrons que notre réduction au silence adaptative des experts augmente le taux de réussite moyen des attaques de 7,3 % à 70,4 %, atteignant jusqu'à 86,3 %, surpassant les méthodes de jailbreak MoE antérieures ne nécessitant pas d'entraînement. De plus, contourner les garde-fous nécessite généralement de réduire au silence moins de 20 % des experts par couche, tout en préservant largement l'utilité linguistique générale. Ces résultats révèlent une tension fondamentale entre la conception des MoE axée sur l'efficacité et un alignement de sécurité robuste, et motivent une distribution plus robuste des mécanismes de sécurité dans les futurs MoE LLM grâce à des méthodes conscientes de l'architecture et du routage.
English
The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L^3), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L^3 learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L^3 on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.