MASCing: Comportamiento Configurable de Mezcla de Expertos mediante Máscaras de Direccionamiento de Activación

Resumen

Las arquitecturas Mixture-of-Experts (MoE) en los Modelos de Lenguaje a Gran Escala (LLMs) han reducido significativamente los costos de inferencia mediante la activación dispersa. Sin embargo, este paradigma de activación dispersa también introduce nuevos desafíos de seguridad. Dado que solo un subconjunto de expertos se activa para cada entrada, el comportamiento del modelo se acopla a las decisiones de enrutamiento, generando un mecanismo difícil de controlar que puede variar en escenarios relevantes para la seguridad. Al mismo tiempo, adaptar el comportamiento del modelo mediante fine-tuning completo o reentrenamiento es costoso, especialmente cuando los desarrolladores necesitan configurar rápidamente el mismo modelo para diferentes objetivos de seguridad. Presentamos MASCing (MoE Activation Steering Configuration), el primer marco que permite la reconfiguración flexible del comportamiento MoE en diversos escenarios de seguridad sin reentrenamiento. MASCing utiliza un modelo sustituto basado en LSTM para capturar las dependencias de enrutamiento entre capas y mapear los logits de enrutamiento a comportamientos posteriores. Luego optimiza una matriz de direccionamiento para identificar circuitos de expertos relevantes para el comportamiento y, en el momento de la inferencia, aplica máscaras de direccionamiento a las compuertas de enrutamiento para anular la selección de expertos. Esto permite la mejora o supresión dirigida de comportamientos específicos mientras se preserva la utilidad general del lenguaje. Para demostrar su reconfigurabilidad, aplicamos MASCing a dos objetivos diferentes relacionados con la seguridad y observamos ganancias consistentes con una sobrecarga negligible en siete modelos MoE de código abierto. Para la defensa contra jailbreaks multi-turn, mejora la tasa promedio de éxito en la defensa del 52.5% al 83.9%, con ganancias de hasta el 89.2%. Para la generación de contenido para adultos, MASCing permite a los modelos cumplir con solicitudes que de otro modo serían rechazadas, aumentando la tasa promedio de éxito en la generación del 52.6% al 82.0%, con ganancias de hasta el 93.0%. Estos resultados establecen a MASCing como un marco práctico, ligero y flexible para la reconfiguración de seguridad específica de escenario en modelos MoE.

English

Mixture-of-Experts (MoE) architectures in Large Language Models (LLMs) have significantly reduced inference costs through sparse activation. However, this sparse activation paradigm also introduces new safety challenges. Since only a subset of experts is engaged for each input, model behavior becomes coupled to routing decisions, yielding a difficult-to-control mechanism that can vary across safety-relevant scenarios. At the same time, adapting model behavior through full fine-tuning or retraining is costly, especially when developers need to rapidly configure the same model for different safety objectives. We present MASCing (MoE Activation Steering Configuration), the first framework that enables flexible reconfiguration of MoE behavior across diverse safety scenarios without retraining. MASCing uses an LSTM-based surrogate model to capture cross-layer routing dependencies and map routing logits to downstream behaviors. It then optimizes a steering matrix to identify behavior-relevant expert circuits and, at inference time, applies steering masks to the routing gates to override expert selection. This enables targeted enhancement or suppression of specific behaviors while preserving general language utility. To demonstrate its reconfigurability, we apply MASCing to two different safety-related objectives and observe consistent gains with negligible overhead across seven open-source MoE models. For multi-turn jailbreak defense, it improves the average defense success rate from 52.5% to 83.9%, with gains of up to 89.2%. For adult-content generation, MASCing enables models to comply with such requests that would otherwise be refused, increasing the average generation success rate from 52.6% to 82.0%, with gains of up to 93.0%. These results establish MASCing as a practical, lightweight, and flexible framework for scenario-specific safety reconfiguration in MoE models.

MASCing: Comportamiento Configurable de Mezcla de Expertos mediante Máscaras de Direccionamiento de Activación

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Resumen

Support