Große Sprachlobotomie: Jailbreaking von Mixture-of-Experts durch Expertensilencing
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
February 9, 2026
papers.authors: Jona te Lintelo, Lichao Wu, Stjepan Picek
cs.AI
papers.abstract
Die rasche Verbreitung von Mixture-of-Experts (MoE)-Architekturen markiert einen bedeutenden Wandel bei der Implementierung von Large Language Models (LLMs). MoE-LLMs verbessern die Skalierungseffizienz, indem sie pro Token nur eine kleine Teilmenge der Parameter aktivieren, doch ihre Routing-Struktur eröffnet neue Angriffsflächen für Sicherheitslücken. Wir stellen fest, dass sicherheitskritische Verhaltensweisen in MoE-LLMs (z.B. Ablehnungen) in einer kleinen Gruppe von Experten konzentriert sind und nicht gleichmäßig verteilt werden. Aufbauend darauf entwickeln wir Large Language Lobotomy (L^3), einen trainingsfreien, architekturunabhängigen Angriff, der die Sicherheitsausrichtung kompromittiert, indem er die Routing-Dynamik der Experten ausnutzt. L^3 erlernt Routing-Muster, die mit Ablehnungsverhalten korrelieren, attribuiert Sicherheitsverhalten auf bestimmte Experten und deaktiviert adaptiv die sicherheitsrelevantesten Experten, bis schädliche Ausgaben erzeugt werden. Wir evaluieren L^3 an acht modernen Open-Source-MoE-LLMs und zeigen, dass unser adaptives Experten-Silencing die durchschnittliche Angriffserfolgsrate von 7,3 % auf 70,4 % steigert, mit Spitzenwerten bis zu 86,3 %, und dabei bisherige trainingsfreie MoE-Jailbreak-Methoden übertrifft. Darüber hinaus erfordert die Umgehung von Sicherheitsbarrieren typischerweise die Deaktivierung von weniger als 20 % der Experten pro Schicht, wobei die allgemeine Sprachfähigkeit weitgehend erhalten bleibt. Diese Ergebnisse offenbaren einen grundlegenden Zielkonflikt zwischen effizienzorientiertem MoE-Design und robuster Sicherheitsausrichtung und motivieren eine widerstandsfähigere Verteilung von Sicherheitsmechanismen in zukünftigen MoE-LLMs durch architektur- und routing-bewusste Methoden.
English
The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L^3), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L^3 learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L^3 on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.