GateBreaker: Tor-gesteuerte Angriffe auf Mixture-of-Expert-LLMs
GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
December 24, 2025
papers.authors: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi
cs.AI
papers.abstract
Mixture-of-Experts (MoE)-Architekturen haben die Skalierung von Large Language Models (LLMs) vorangetrieben, indem sie pro Eingabe nur eine spärliche Teilmenge von Parametern aktivieren, was state-of-the-art Leistung bei reduziertem Rechenaufwand ermöglicht. Da diese Modelle zunehmend in kritischen Domänen eingesetzt werden, ist das Verständnis und die Stärkung ihrer Alignment-Mechanismen entscheidend, um schädliche Ausgaben zu verhindern. Die bestehende Sicherheitsforschung zu LLMs hat sich jedoch fast ausschließlich auf dichte Architekturen konzentriert, wodurch die einzigartigen Sicherheitseigenschaften von MoEs weitgehend unerforscht blieben. Das modulare, spärlich aktivierte Design von MoEs legt nahe, dass Sicherheitsmechanismen anders funktionieren könnten als in dichten Modellen, was Fragen zu ihrer Robustheit aufwirft.
In diesem Artikel stellen wir GateBreaker vor, das erste trainierungsfreie, leichtgewichtige und architektur-agnostische Angriffsframework, das die Safety-Alignment moderner MoE-LLMs zur Inferenzzeit kompromittiert. GateBreaker operiert in drei Stufen: (i) Gate-Level-Profiling, das Safety-Experten identifiziert, die bei schädlichen Eingaben überproportional häufig angesteuert werden, (ii) Expert-Level-Lokalisierung, die die Sicherheitsstruktur innerhalb der Safety-Experten lokalisiert, und (iii) gezielte Safety-Entfernung, die die identifizierte Sicherheitsstruktur deaktiviert, um das Safety-Alignment zu brechen. Unsere Studie zeigt, dass sich die MoE-Sicherheit auf eine kleine Teilmenge von Neuronen konzentriert, die durch sparse Routing koordiniert werden. Die selektive Deaktivierung dieser Neuronen – etwa 3 % der Neuronen in den Ziel-Experten-Layern – erhöht die durchschnittliche Angriffserfolgsrate (Attack Success Rate, ASR) gegen die acht neuesten alignierten MoE-LLMs signifikant von 7,4 % auf 64,9 % bei begrenzter Nutzungsqualitätsverschlechterung. Diese Safety-Neuronen sind übertragbar auf Modelle innerhalb derselben Familie und erhöhen die ASR mittels One-Shot-Transfer-Angriff von 17,9 % auf 67,7 %. Darüber hinaus verallgemeinert GateBreaker auf fünf MoE-Vision-Language-Models (VLMs) mit einer ASR von 60,9 % bei unsicheren Bildeingaben.
English
Mixture-of-Experts (MoE) architectures have advanced the scaling of Large Language Models (LLMs) by activating only a sparse subset of parameters per input, enabling state-of-the-art performance with reduced computational cost. As these models are increasingly deployed in critical domains, understanding and strengthening their alignment mechanisms is essential to prevent harmful outputs. However, existing LLM safety research has focused almost exclusively on dense architectures, leaving the unique safety properties of MoEs largely unexamined. The modular, sparsely-activated design of MoEs suggests that safety mechanisms may operate differently than in dense models, raising questions about their robustness.
In this paper, we present GateBreaker, the first training-free, lightweight, and architecture-agnostic attack framework that compromises the safety alignment of modern MoE LLMs at inference time. GateBreaker operates in three stages: (i) gate-level profiling, which identifies safety experts disproportionately routed on harmful inputs, (ii) expert-level localization, which localizes the safety structure within safety experts, and (iii) targeted safety removal, which disables the identified safety structure to compromise the safety alignment. Our study shows that MoE safety concentrates within a small subset of neurons coordinated by sparse routing. Selective disabling of these neurons, approximately 3% of neurons in the targeted expert layers, significantly increases the averaged attack success rate (ASR) from 7.4% to 64.9% against the eight latest aligned MoE LLMs with limited utility degradation. These safety neurons transfer across models within the same family, raising ASR from 17.9% to 67.7% with one-shot transfer attack. Furthermore, GateBreaker generalizes to five MoE vision language models (VLMs) with 60.9% ASR on unsafe image inputs.