Крупномасштабная лоботомия языковых моделей: взлом архитектуры Mixture-of-Experts через подавление экспертов
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
February 9, 2026
Авторы: Jona te Lintelo, Lichao Wu, Stjepan Picek
cs.AI
Аннотация
Быстрое внедрение архитектур Mixture-of-Experts (MoE) знаменует собой значительный сдвиг в развертывании больших языковых моделей (LLM). MoE LLM повышают эффективность масштабирования за счет активации лишь небольшого подмножества параметров на токен, но их маршрутизирующая структура создает новые поверхности для атак на безопасность. Мы обнаружили, что критически важные для безопасности поведения в MoE LLM (например, отказ) сосредоточены в небольшом наборе экспертов, а не распределены равномерно. Основываясь на этом, мы предлагаем Large Language Lobotomy (L^3) — атаку, не требующую дообучения и агностичную к архитектуре, которая компрометирует безопасностную адаптацию, используя динамику маршрутизации экспертов. L^3 изучает шаблоны маршрутизации, коррелирующие с отказом, приписывает поведение безопасности конкретным экспертам и адаптивно отключает наиболее релевантных для безопасности экспертов до тех пор, пока не будут получены вредоносные выводы. Мы оцениваем L^3 на восьми современных открытых MoE LLM и показываем, что наше адаптивное отключение экспертов увеличивает средний успех атаки с 7.3% до 70.4%, достигая до 86.3%, превосходя предыдущие методы взлома MoE, не требующие дообучения. Более того, для обхода защитных механизмов обычно требуется отключить менее 20% экспертов на уровне слоя, при этом в значительной степени сохраняя общую языковую полезность. Эти результаты раскрывают фундаментальное противоречие между ориентированным на эффективность дизайном MoE и robustной безопасностной адаптацией и мотивируют более надежное распределение механизмов безопасности в будущих MoE LLM с помощью методов, учитывающих архитектуру и маршрутизацию.
English
The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L^3), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L^3 learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L^3 on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.