MASCing: Настраиваемое поведение смеси экспертов с помощью масок активационного управления

Аннотация

Архитектуры смеси экспертов (Mixture-of-Experts, MoE) в больших языковых моделях (LLM) значительно снизили стоимость вывода благодаря разреженной активации. Однако эта парадигма разреженной активации также создает новые проблемы безопасности. Поскольку для каждого входа задействуется только подмножество экспертов, поведение модели становится связанным с решениями маршрутизации, что создает трудноуправляемый механизм, который может варьироваться в различных сценариях, связанных с безопасностью. В то же время адаптация поведения модели путем полной тонкой настройки или переобучения является дорогостоящей, особенно когда разработчикам необходимо быстро настроить одну и ту же модель для различных целей безопасности. Мы представляем MASCing (MoE Activation Steering Configuration) — первую систему, которая позволяет гибко перенастраивать поведение MoE в различных сценариях безопасности без переобучения. MASCing использует суррогатную модель на основе LSTM для захвата межслойных зависимостей маршрутизации и отображения логитов маршрутизации на последующее поведение. Затем она оптимизирует управляющую матрицу для идентификации цепей экспертов, связанных с поведением, и на этапе вывода применяет управляющие маски к шлюзам маршрутизации, чтобы переопределить выбор экспертов. Это позволяет целенаправленно усиливать или подавлять конкретные поведения, сохраняя при этом общую языковую полезность модели. Чтобы продемонстрировать ее перенастраиваемость, мы применяем MASCing к двум различным задачам, связанным с безопасностью, и наблюдаем стабильное улучшение с незначительными накладными расходами в семи моделях MoE с открытым исходным кодом. Для защиты от многошаговых jailbreak-атак система повышает средний уровень успешной защиты с 52,5% до 83,9%, с максимальным улучшением до 89,2%. Для генерации контента для взрослых MASCing позволяет моделям выполнять такие запросы, которые в противном случае отклонялись, увеличивая средний уровень успешной генерации с 52,6% до 82,0%, с максимальным улучшением до 93,0%. Эти результаты подтверждают, что MASCing является практичным, легковесным и гибким инструментом для специфической перенастройки безопасности в моделях MoE.

English

Mixture-of-Experts (MoE) architectures in Large Language Models (LLMs) have significantly reduced inference costs through sparse activation. However, this sparse activation paradigm also introduces new safety challenges. Since only a subset of experts is engaged for each input, model behavior becomes coupled to routing decisions, yielding a difficult-to-control mechanism that can vary across safety-relevant scenarios. At the same time, adapting model behavior through full fine-tuning or retraining is costly, especially when developers need to rapidly configure the same model for different safety objectives. We present MASCing (MoE Activation Steering Configuration), the first framework that enables flexible reconfiguration of MoE behavior across diverse safety scenarios without retraining. MASCing uses an LSTM-based surrogate model to capture cross-layer routing dependencies and map routing logits to downstream behaviors. It then optimizes a steering matrix to identify behavior-relevant expert circuits and, at inference time, applies steering masks to the routing gates to override expert selection. This enables targeted enhancement or suppression of specific behaviors while preserving general language utility. To demonstrate its reconfigurability, we apply MASCing to two different safety-related objectives and observe consistent gains with negligible overhead across seven open-source MoE models. For multi-turn jailbreak defense, it improves the average defense success rate from 52.5% to 83.9%, with gains of up to 89.2%. For adult-content generation, MASCing enables models to comply with such requests that would otherwise be refused, increasing the average generation success rate from 52.6% to 82.0%, with gains of up to 93.0%. These results establish MASCing as a practical, lightweight, and flexible framework for scenario-specific safety reconfiguration in MoE models.

MASCing: Настраиваемое поведение смеси экспертов с помощью масок активационного управления

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Аннотация

Support