MASCing: Konfigurierbares Mixture-of-Experts-Verhalten durch Aktivierungssteuerungsmasken

Zusammenfassung

Mixture-of-Experts (MoE)-Architekturen in großen Sprachmodellen (LLMs) haben die Inferenzkosten durch spärliche Aktivierung erheblich gesenkt. Diese spärliche Aktivierungsparadigma führt jedoch auch zu neuen Sicherheitsherausforderungen. Da für jede Eingabe nur eine Teilmenge von Experten aktiviert wird, wird das Modellverhalten an Routing-Entscheidungen gekoppelt, was einen schwer zu kontrollierenden Mechanismus ergibt, der sich über sicherheitsrelevante Szenarien hinweg variieren kann. Gleichzeitig ist die Anpassung des Modellverhaltens durch vollständiges Fine-Tuning oder erneutes Training kostspielig, insbesondere wenn Entwickler dasselbe Modell schnell für verschiedene Sicherheitsziele konfigurieren müssen. Wir stellen MASCing (MoE Activation Steering Configuration) vor, den ersten Framework, der eine flexible Neukonfiguration des MoE-Verhaltens über diverse Sicherheitsszenarien hinweg ohne erneutes Training ermöglicht. MASCing verwendet ein LSTM-basiertes Surrogatmodell, um abhängigkeitenübergreifende Routing-Abhängigkeiten zu erfassen und Routing-Logits auf nachgelagerte Verhaltensweisen abzubilden. Anschließend optimiert es eine Steuermatrix, um verhaltensrelevante Experten-Schaltkreise zu identifizieren, und wendet zur Inferenzzeit Steuerungsmasken auf die Routing-Gates an, um die Expertenauswahl zu überschreiben. Dies ermöglicht eine gezielte Verstärkung oder Unterdrückung spezifischer Verhaltensweisen bei Erhalt der allgemeinen Sprachfähigkeit. Um seine Rekonfigurierbarkeit zu demonstrieren, wenden wir MASCing auf zwei verschiedene sicherheitsrelevante Ziele an und beobachten konsistente Verbesserungen mit vernachlässigbarem Overhead über sieben Open-Source-MoE-Modelle hinweg. Für die Abwehr von Mehrfach-Jailbreaks verbessert es die durchschnittliche Abwehrerfolgsrate von 52,5 % auf 83,9 %, mit Steigerungen von bis zu 89,2 %. Für die Generierung von Erwachseneninhalten ermöglicht MASCing Modellen, solchen Anfragen nachzukommen, die ansonsten abgelehnt würden, und erhöht die durchschnittliche Generierungserfolgsrate von 52,6 % auf 82,0 %, mit Steigerungen von bis zu 93,0 %. Diese Ergebnisse etablieren MASCing als einen praktischen, leichtgewichtigen und flexiblen Framework für szenariospezifische Sicherheitsneukonfiguration in MoE-Modellen.

English

Mixture-of-Experts (MoE) architectures in Large Language Models (LLMs) have significantly reduced inference costs through sparse activation. However, this sparse activation paradigm also introduces new safety challenges. Since only a subset of experts is engaged for each input, model behavior becomes coupled to routing decisions, yielding a difficult-to-control mechanism that can vary across safety-relevant scenarios. At the same time, adapting model behavior through full fine-tuning or retraining is costly, especially when developers need to rapidly configure the same model for different safety objectives. We present MASCing (MoE Activation Steering Configuration), the first framework that enables flexible reconfiguration of MoE behavior across diverse safety scenarios without retraining. MASCing uses an LSTM-based surrogate model to capture cross-layer routing dependencies and map routing logits to downstream behaviors. It then optimizes a steering matrix to identify behavior-relevant expert circuits and, at inference time, applies steering masks to the routing gates to override expert selection. This enables targeted enhancement or suppression of specific behaviors while preserving general language utility. To demonstrate its reconfigurability, we apply MASCing to two different safety-related objectives and observe consistent gains with negligible overhead across seven open-source MoE models. For multi-turn jailbreak defense, it improves the average defense success rate from 52.5% to 83.9%, with gains of up to 89.2%. For adult-content generation, MASCing enables models to comply with such requests that would otherwise be refused, increasing the average generation success rate from 52.6% to 82.0%, with gains of up to 93.0%. These results establish MASCing as a practical, lightweight, and flexible framework for scenario-specific safety reconfiguration in MoE models.

MASCing: Konfigurierbares Mixture-of-Experts-Verhalten durch Aktivierungssteuerungsmasken

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Zusammenfassung

Support