Gran Lobotomía Lingüística: Desbloqueo de Mezcla de Expertos mediante Silenciamiento de Especialistas
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
February 9, 2026
Autores: Jona te Lintelo, Lichao Wu, Stjepan Picek
cs.AI
Resumen
La rápida adopción de las arquitecturas Mixture-of-Experts (MoE) marca un cambio importante en el despliegue de los Modelos de Lenguaje a Gran Escala (LLM). Los LLM MoE mejoran la eficiencia de escalado activando solo un pequeño subconjunto de parámetros por token, pero su estructura de enrutamiento introduce nuevas superficies de ataque para la seguridad. Descubrimos que los comportamientos críticos para la seguridad en los LLM MoE (por ejemplo, la negativa a responder) se concentran en un pequeño conjunto de expertos en lugar de estar distribuidos uniformemente. Basándonos en esto, proponemos Large Language Lobotomy (L^3), un ataque agnóstico a la arquitectura y que no requiere entrenamiento, que compromete la alineación de seguridad explotando la dinámica de enrutamiento de los expertos. L^3 aprende los patrones de enrutamiento que se correlacionan con la negativa, atribuye el comportamiento de seguridad a expertos específicos y silencia de forma adaptativa a los expertos más relevantes para la seguridad hasta que se producen resultados dañinos. Evaluamos L^3 en ocho LLM MoE de código abierto de última generación y demostramos que nuestro silenciamiento adaptativo de expertos aumenta el éxito promedio del ataque del 7.3% al 70.4%, alcanzando hasta un 86.3%, superando a los métodos anteriores de jailbreak para MoE que no requieren entrenamiento. Además, eludir las salvaguardas normalmente requiere silenciar a menos del 20% de los expertos por capa, preservando en gran medida la utilidad general del lenguaje. Estos resultados revelan una tensión fundamental entre el diseño de MoE orientado a la eficiencia y una alineación de seguridad robusta, y motivan la distribución de mecanismos de seguridad de manera más robusta en futuros LLM MoE mediante métodos conscientes de la arquitectura y el enrutamiento.
English
The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L^3), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L^3 learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L^3 on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.