시간적 확장 혼합 전문가 모델
Temporally Extended Mixture-of-Experts Models
April 22, 2026
저자: Zeyu Shen, Peter Henderson
cs.AI
초록
전문가 혼합(MoE) 모델은 고정된 추론 속도로 용량을 확장하는 방법으로 널리 사용되며, 거의 모든 토큰에서 전문가를 전환합니다. 모델이 사용 가능한 GPU 메모리를 초과하면 이러한 빈번한 전환은 오프로딩 및 프리페칭과 같은 최적화 기법을 비효율적으로 만듭니다. 본 연구는 강화 학습의 옵션 프레임워크가 이 문제를 해결하는 데 완벽하게 부합하며, 시간적으로 확장된 전문가 혼합 계층의 필요성을 주장합니다. 숙고 비용을 도입한 옵션-비판 프레임워크를 기반으로, 각 계층에 전문가 집합의 전환 시기와 로드 대상을 학습하는 컨트롤러를 추가합니다. 이를 저순위 적응기와 자기蒸馏 보상을 적용한 gpt-oss-20b 모델에 구현한 결과, MATH, MMLU, MMMLU 벤치마크에서 기본 모델 정확도의 최대 90%를 유지하면서 전환율을 50% 이상에서 5% 미만으로 감축했습니다. 이는 기존 사전 학습된 모델도 경량 학습을 통해 시간적으로 확장된 MoE로 전환 가능함을 보여주며, 숙고 비용을 통해 모델 개발자가 전환율과 성능 간의 trade-off를 조정할 수 있게 합니다. 본 접근법이 옵션 프레임워크에 기반한 원칙적 경로를 제시함으로써, 지속적으로 성장하는 MoE 모델의 메모리 효율적 서빙 및 지속 학습에 기여하기를 기대합니다.
English
Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.