MASCing: Configureerbaar Mengsel-van-Experts Gedrag via Activatiesturingsmaskers

Samenvatting

Mixture-of-Experts (MoE)-architecturen in Large Language Models (LLM's) hebben de inferentiekosten aanzienlijk verlaagd door middel van sparse activering. Deze sparse activeringsparadigma introduceert echter ook nieuwe veiligheidsuitdagingen. Omdat voor elke invoer slechts een subset van experts wordt ingeschakeld, wordt het modelgedrag gekoppeld aan routeringsbeslissingen, wat een moeilijk te controleren mechanisme oplevert dat kan variëren over veiligheidsrelevante scenario's. Tegelijkertijd is het aanpassen van modelgedrag via volledige fine-tuning of hertraining kostbaar, vooral wanneer ontwikkelaars hetzelfde model snel moeten configureren voor verschillende veiligheidsdoelstellingen. Wij presenteren MASCing (MoE Activation Steering Configuration), het eerste framework dat flexibele herconfiguratie van MoE-gedrag over diverse veiligheidsscenario's mogelijk maakt zonder hertraining. MASCing gebruikt een op LSTM gebaseerd surrogaatmodel om cross-layer routeringsafhankelijkheden vast te leggen en routeringslogits aan downstream gedrag te koppelen. Vervolgens optimaliseert het een stuurmatrix om gedragsrelevante expertcircuits te identificeren en past het tijdens inferentie stuurmaskers toe op de routeringspoorten om expertselectie te overschrijven. Hierdoor wordt gerichte versterking of onderdrukking van specifiek gedrag mogelijk, terwijl het algemene taalnut behouden blijft. Om de herconfigureerbaarheid aan te tonen, passen we MASCing toe op twee verschillende veiligheidsgerelateerde doelstellingen en observeren we consistente verbeteringen met verwaarloosbare overhead over zeven open-source MoE-modellen. Voor multi-turn jailbreak-defensie verbetert het het gemiddelde verdedigingssuccespercentage van 52,5% naar 83,9%, met verbeteringen tot 89,2%. Voor het genereren van inhoud voor volwassenen stelt MASCing modellen in staat om verzoeken die anders geweigerd zouden worden, na te komen, waardoor het gemiddelde generatiesuccespercentage stijgt van 52,6% naar 82,0%, met verbeteringen tot 93,0%. Deze resultaten vestigen MASCing als een praktisch, lichtgewicht en flexibel framework voor scenario-specifieke veiligheidsherconfiguratie in MoE-modellen.

English

Mixture-of-Experts (MoE) architectures in Large Language Models (LLMs) have significantly reduced inference costs through sparse activation. However, this sparse activation paradigm also introduces new safety challenges. Since only a subset of experts is engaged for each input, model behavior becomes coupled to routing decisions, yielding a difficult-to-control mechanism that can vary across safety-relevant scenarios. At the same time, adapting model behavior through full fine-tuning or retraining is costly, especially when developers need to rapidly configure the same model for different safety objectives. We present MASCing (MoE Activation Steering Configuration), the first framework that enables flexible reconfiguration of MoE behavior across diverse safety scenarios without retraining. MASCing uses an LSTM-based surrogate model to capture cross-layer routing dependencies and map routing logits to downstream behaviors. It then optimizes a steering matrix to identify behavior-relevant expert circuits and, at inference time, applies steering masks to the routing gates to override expert selection. This enables targeted enhancement or suppression of specific behaviors while preserving general language utility. To demonstrate its reconfigurability, we apply MASCing to two different safety-related objectives and observe consistent gains with negligible overhead across seven open-source MoE models. For multi-turn jailbreak defense, it improves the average defense success rate from 52.5% to 83.9%, with gains of up to 89.2%. For adult-content generation, MASCing enables models to comply with such requests that would otherwise be refused, increasing the average generation success rate from 52.6% to 82.0%, with gains of up to 93.0%. These results establish MASCing as a practical, lightweight, and flexible framework for scenario-specific safety reconfiguration in MoE models.

MASCing: Configureerbaar Mengsel-van-Experts Gedrag via Activatiesturingsmaskers

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Samenvatting

Support