ChatPaper.aiChatPaper

GateBreaker: Ataques Guiados por Compuertas a Modelos de Lenguaje con Mezcla de Expertos

GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

December 24, 2025
Autores: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi
cs.AI

Resumen

Las arquitecturas Mixture-of-Experts (MoE) han impulsado la escalabilidad de los Modelos de Lenguaje a Gran Escala (LLM) activando solo un subconjunto disperso de parámetros por entrada, lo que permite un rendimiento de vanguardia con un coste computacional reducido. A medida que estos modelos se despliegan cada vez más en dominios críticos, comprender y reforzar sus mecanismos de alineación es esencial para prevenir resultados perjudiciales. Sin embargo, la investigación existente sobre seguridad en LLM se ha centrado casi exclusivamente en arquitecturas densas, dejando en gran medida sin examinar las propiedades de seguridad únicas de los MoE. El diseño modular y de activación dispersa de los MoE sugiere que los mecanismos de seguridad pueden operar de manera diferente a como lo hacen en los modelos densos, lo que plantea interrogantes sobre su robustez. En este artículo presentamos GateBreaker, el primer marco de ataque ligero, independiente de la arquitectura y que no requiere entrenamiento, que compromete la alineación de seguridad de los MoE LLM modernos en tiempo de inferencia. GateBreaker opera en tres etapas: (i) perfilado a nivel de puerta, que identifica a los expertos de seguridad a los que se enruta desproporcionadamente en entradas perjudiciales, (ii) localización a nivel de experto, que localiza la estructura de seguridad dentro de los expertos de seguridad, y (iii) eliminación selectiva de seguridad, que desactiva la estructura de seguridad identificada para comprometer la alineación de seguridad. Nuestro estudio muestra que la seguridad en los MoE se concentra dentro de un pequeño subconjunto de neuronas coordinadas por el enrutamiento disperso. La desactivación selectiva de estas neuronas, aproximadamente el 3% de las neuronas en las capas de expertos objetivo, aumenta significativamente la tasa media de éxito de ataque (ASR) del 7.4% al 64.9% contra los ocho últimos MoE LLM alineados, con una degradación limitada de la utilidad. Estas neuronas de seguridad se transfieren entre modelos de la misma familia, aumentando la ASR del 17.9% al 67.7% con un ataque de transferencia de un solo disparo. Además, GateBreaker se generaliza a cinco modelos de lenguaje visual (VLM) MoE, logrando una ASR del 60.9% en entradas de imagen no seguras.
English
Mixture-of-Experts (MoE) architectures have advanced the scaling of Large Language Models (LLMs) by activating only a sparse subset of parameters per input, enabling state-of-the-art performance with reduced computational cost. As these models are increasingly deployed in critical domains, understanding and strengthening their alignment mechanisms is essential to prevent harmful outputs. However, existing LLM safety research has focused almost exclusively on dense architectures, leaving the unique safety properties of MoEs largely unexamined. The modular, sparsely-activated design of MoEs suggests that safety mechanisms may operate differently than in dense models, raising questions about their robustness. In this paper, we present GateBreaker, the first training-free, lightweight, and architecture-agnostic attack framework that compromises the safety alignment of modern MoE LLMs at inference time. GateBreaker operates in three stages: (i) gate-level profiling, which identifies safety experts disproportionately routed on harmful inputs, (ii) expert-level localization, which localizes the safety structure within safety experts, and (iii) targeted safety removal, which disables the identified safety structure to compromise the safety alignment. Our study shows that MoE safety concentrates within a small subset of neurons coordinated by sparse routing. Selective disabling of these neurons, approximately 3% of neurons in the targeted expert layers, significantly increases the averaged attack success rate (ASR) from 7.4% to 64.9% against the eight latest aligned MoE LLMs with limited utility degradation. These safety neurons transfer across models within the same family, raising ASR from 17.9% to 67.7% with one-shot transfer attack. Furthermore, GateBreaker generalizes to five MoE vision language models (VLMs) with 60.9% ASR on unsafe image inputs.
PDF01January 1, 2026