GateBreaker: 게이트 기반 Mixture-of-Expert LLM 공격 기법
GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
December 24, 2025
저자: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi
cs.AI
초록
전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 입력마다 매개변수의 희소 부분집합만을 활성화하여 대규모 언어 모델(LLM)의 규모 확장을 앞당겼으며, 이는 계산 비용을 줄이면서도 최첨단 성능을 가능하게 합니다. 이러한 모델들이 중요한 분야에 점차 배포됨에 따라, 유해한 출력을 방지하기 위해 그 정렬 메커니즘을 이해하고 강화하는 것이 필수적입니다. 그러나 기존의 LLM 안전성 연구는 거의 전적으로 조밀(Dense) 아키텍처에 집중되어 와서, MoE의 고유한 안전성 특성은 크게 검토되지 않은 상태입니다. MoE의 모듈화되고 희소 활성화된 설계는 안전 메커니즘이 조밀 모델과 다르게 작동할 수 있음을 시사하며, 이들의 견고성에 대한 의문을 제기합니다.
본 논문에서는 추론 시점에 현대적인 MoE LLM의 안전 정렬을 훼손하는 최초의 학습 불필요(Training-free), 경량, 아키텍처 불문(Architecture-agnostic) 공격 프레임워크인 GateBreaker를 제시합니다. GateBreaker는 세 단계로 작동합니다: (i) 유해 입력에 불균형적으로 라우팅되는 안전 전문가를 식별하는 게이트 수준 프로파일링, (ii) 안전 전문가 내부의 안전 구조를 국소화하는 전문가 수준 국소화, (iii) 식별된 안전 구조를 비활성화하여 안전 정렬을 훼손하는 표적 안전 제거. 우리의 연구는 MoE의 안전성이 희소 라우팅에 의해 조정되는 소수의 뉴런 하위 집합 내에 집중되어 있음을 보여줍니다. 대상 전문가 계층 내 약 3%의 뉴런을 선택적으로 비활성화하면, 최신 정렬된 8개의 MoE LLM에 대한 평균 공격 성공률(ASR)이 7.4%에서 64.9%로 크게 증가하며 유틸리티 저하는 제한적입니다. 이러한 안전 뉴런들은 동일 계열 내 모델 간에 전이되어, 원샷 전이 공격으로 ASR을 17.9%에서 67.7%로 높입니다. 더 나아가, GateBreaker는 5개의 MoE 시각 언어 모델(VLM)로 일반화되어 안전하지 않은 이미지 입력에 대해 60.9%의 ASR을 달성합니다.
English
Mixture-of-Experts (MoE) architectures have advanced the scaling of Large Language Models (LLMs) by activating only a sparse subset of parameters per input, enabling state-of-the-art performance with reduced computational cost. As these models are increasingly deployed in critical domains, understanding and strengthening their alignment mechanisms is essential to prevent harmful outputs. However, existing LLM safety research has focused almost exclusively on dense architectures, leaving the unique safety properties of MoEs largely unexamined. The modular, sparsely-activated design of MoEs suggests that safety mechanisms may operate differently than in dense models, raising questions about their robustness.
In this paper, we present GateBreaker, the first training-free, lightweight, and architecture-agnostic attack framework that compromises the safety alignment of modern MoE LLMs at inference time. GateBreaker operates in three stages: (i) gate-level profiling, which identifies safety experts disproportionately routed on harmful inputs, (ii) expert-level localization, which localizes the safety structure within safety experts, and (iii) targeted safety removal, which disables the identified safety structure to compromise the safety alignment. Our study shows that MoE safety concentrates within a small subset of neurons coordinated by sparse routing. Selective disabling of these neurons, approximately 3% of neurons in the targeted expert layers, significantly increases the averaged attack success rate (ASR) from 7.4% to 64.9% against the eight latest aligned MoE LLMs with limited utility degradation. These safety neurons transfer across models within the same family, raising ASR from 17.9% to 67.7% with one-shot transfer attack. Furthermore, GateBreaker generalizes to five MoE vision language models (VLMs) with 60.9% ASR on unsafe image inputs.