ChatPaper.aiChatPaper

추론 작업을 위한 Mixture-of-Experts 언어 모델의 최적 희소성

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

August 26, 2025
저자: Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota
cs.AI

초록

경험적 스케일링 법칙은 대규모 언어 모델(LLM)의 진화를 이끌어 왔지만, 모델 아키텍처나 데이터 파이프라인이 변경될 때마다 그 계수는 변동한다. 최첨단 시스템에서 이제 표준이 된 전문가 혼합(MoE) 모델은 현재의 조밀 모델(dense-model) 접근법이 간과하는 새로운 희소성 차원을 도입한다. 우리는 MoE 희소성이 두 가지 구별되는 능력 영역, 즉 기억(memorization)과 추론(reasoning)에 어떻게 영향을 미치는지 조사한다. 우리는 컴퓨팅 예산을 고정한 상태에서 총 매개변수, 활성 매개변수, 그리고 top-k 라우팅을 체계적으로 변화시키는 MoE 트랜스포머 모델군을 학습시켰다. 각 모델에 대해 사전 학습 손실, 다운스트림 작업 손실, 작업 정확도를 기록하여 학습-테스트 일반화 격차와 손실-정확도 격차를 분리할 수 있었다. 기억 벤치마크는 학습 손실을 반영하며 총 매개변수와 함께 단조롭게 향상된다. 반면, 추론 성능은 포화 상태에 이르며, 총 매개변수와 학습 손실이 계속해서 증가함에도 불구하고 퇴보할 수 있다. 활성 매개변수가 일정할 때 top-k만 변경하는 것은 거의 영향을 미치지 않으며, 학습률 및 초기화와 같은 고전적 하이퍼파라미터는 희소성과 동일한 방향으로 일반화 격차를 조절한다. 사후 학습 강화 학습(GRPO)이나 추가 테스트 시간 컴퓨팅도 지나치게 희소한 모델의 추론 결함을 해결하지 못한다. 우리의 모델 체크포인트, 코드 및 로그는 https://github.com/rioyokotalab/optimal-sparsity에서 오픈소스로 제공된다.
English
Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.
PDF21August 27, 2025