MASCing : Comportement configurable de mélange d'experts via des masques de pilotage par activation

Résumé

Les architectures Mixture-of-Experts (MoE) dans les grands modèles de langage (LLM) ont considérablement réduit les coûts d'inférence grâce à l'activation parcimonieuse. Cependant, ce paradigme d'activation éparse introduit également de nouveaux défis en matière de sécurité. Étant donné que seul un sous-ensemble d'experts est mobilisé pour chaque entrée, le comportement du modèle devient couplé aux décisions de routage, produisant un mécanisme difficile à contrôler pouvant varier selon les scénarios pertinents pour la sécurité. Parallèlement, l'adaptation du comportement du modèle par fine-tuning complet ou par réentraînement est coûteuse, surtout lorsque les développeurs doivent configurer rapidement le même modèle pour différents objectifs de sécurité. Nous présentons MASCing (MoE Activation Steering Configuration), le premier cadre permettant une reconfiguration flexible du comportement des MoE pour divers scénarios de sécurité sans réentraînement. MASCing utilise un modèle substitut basé sur des LSTM pour capturer les dépendances de routage inter-couches et mapper les logits de routage vers les comportements en aval. Il optimise ensuite une matrice de pilotage pour identifier les circuits d'experts pertinents pour le comportement et, au moment de l'inférence, applique des masques de pilotage aux portes de routage pour remplacer la sélection d'experts. Cela permet d'améliorer ou de supprimer ciblément des comportements spécifiques tout en préservant l'utilité linguistique générale. Pour démontrer sa reconfigurabilité, nous appliquons MASCing à deux objectifs différents liés à la sécurité et observons des gains constants avec une surcharge négligeable sur sept modèles MoE open-source. Pour la défense contre les jailbreaks multi-tours, il améliore le taux de réussite moyen de la défense de 52,5 % à 83,9 %, avec des gains allant jusqu'à 89,2 %. Pour la génération de contenu pour adultes, MASCing permet aux modèles de satisfaire des requêtes qui seraient autrement refusées, augmentant le taux de génération réussi moyen de 52,6 % à 82,0 %, avec des gains allant jusqu'à 93,0 %. Ces résultats établissent MASCing comme un cadre pratique, léger et flexible pour la reconfiguration de la sécurité spécifique aux scénarios dans les modèles MoE.

English

Mixture-of-Experts (MoE) architectures in Large Language Models (LLMs) have significantly reduced inference costs through sparse activation. However, this sparse activation paradigm also introduces new safety challenges. Since only a subset of experts is engaged for each input, model behavior becomes coupled to routing decisions, yielding a difficult-to-control mechanism that can vary across safety-relevant scenarios. At the same time, adapting model behavior through full fine-tuning or retraining is costly, especially when developers need to rapidly configure the same model for different safety objectives. We present MASCing (MoE Activation Steering Configuration), the first framework that enables flexible reconfiguration of MoE behavior across diverse safety scenarios without retraining. MASCing uses an LSTM-based surrogate model to capture cross-layer routing dependencies and map routing logits to downstream behaviors. It then optimizes a steering matrix to identify behavior-relevant expert circuits and, at inference time, applies steering masks to the routing gates to override expert selection. This enables targeted enhancement or suppression of specific behaviors while preserving general language utility. To demonstrate its reconfigurability, we apply MASCing to two different safety-related objectives and observe consistent gains with negligible overhead across seven open-source MoE models. For multi-turn jailbreak defense, it improves the average defense success rate from 52.5% to 83.9%, with gains of up to 89.2%. For adult-content generation, MASCing enables models to comply with such requests that would otherwise be refused, increasing the average generation success rate from 52.6% to 82.0%, with gains of up to 93.0%. These results establish MASCing as a practical, lightweight, and flexible framework for scenario-specific safety reconfiguration in MoE models.

MASCing : Comportement configurable de mélange d'experts via des masques de pilotage par activation

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Résumé

Support