Lobotomia dei Grandi Modelli Linguistici: Violazione del Sistema Mixture-of-Experts Tramite Silenziamento degli Esperti

Abstract

La rapida adozione delle architetture Mixture-of-Experts (MoE) segna un cambiamento significativo nell'implementazione dei Large Language Model (LLM). I MoE LLM migliorano l'efficienza di scalabilità attivando solo un piccolo sottoinsieme di parametri per token, ma la loro struttura di routing introduce nuove superfici di attacco per la sicurezza. Scopriamo che i comportamenti critici per la sicurezza nei MoE LLM (ad esempio, il rifiuto di rispondere) sono concentrati in un ristretto insieme di esperti, anziché essere distribuiti uniformemente. Sulla base di ciò, proponiamo la Large Language Lobotomy (L^3), un attacco *training-free* e indipendente dall'architettura che compromette l'allineamento di sicurezza sfruttando le dinamiche di routing degli esperti. L^3 apprende gli schemi di routing che correlano con il rifiuto, attribuisce il comportamento di sicurezza a esperti specifici e disattiva in modo adattivo gli esperti più rilevanti per la sicurezza finché non vengono prodotti output dannosi. Valutiamo L^3 su otto MoE LLM open-source all'avanguardia e dimostriamo che la nostra disattivazione adattiva degli esperti aumenta il successo medio dell'attacco dal 7,3% al 70,4%, raggiungendo fino all'86,3%, superando i precedenti metodi di *jailbreak* per MoE senza addestramento. Inoltre, eludere le *guardrail* richiede tipicamente la disattivazione di meno del 20% degli esperti per strato, preservando in larga misura l'utilità linguistica generale. Questi risultati rivelano una tensione fondamentale tra la progettazione dei MoE orientata all'efficienza e un robusto allineamento di sicurezza, e motivano la distribuzione più robusta dei meccanismi di sicurezza nei futuri MoE LLM con metodi consapevoli dell'architettura e del routing.

English

The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L^3), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L^3 learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L^3 on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.

Lobotomia dei Grandi Modelli Linguistici: Violazione del Sistema Mixture-of-Experts Tramite Silenziamento degli Esperti

Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing

Abstract

Support