ChatPaper.aiChatPaper

推論タスクにおけるMixture-of-Experts言語モデルの最適なスパース性

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

August 26, 2025
著者: Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota
cs.AI

要旨

経験則に基づくスケーリング法則は大規模言語モデル(LLM)の進化を牽引してきたが、その係数はモデルアーキテクチャやデータパイプラインが変更されるたびに変化する。現在の最先端システムで標準となっているMixture-of-Experts(MoE)モデルは、現在の密モデルのフロンティアが見過ごしている新たなスパース性の次元を導入する。本研究では、MoEのスパース性が2つの異なる能力領域、すなわち記憶と推論にどのように影響するかを調査する。計算予算を固定した状態で、総パラメータ数、活性化パラメータ数、およびtop-kルーティングを体系的に変化させたMoE Transformerのファミリーを学習する。各モデルについて、事前学習損失、下流タスク損失、およびタスク精度を記録し、これにより訓練-テストの汎化ギャップと損失-精度ギャップを分離する。記憶ベンチマークは総パラメータ数に比例して単調に向上し、訓練損失を反映する。一方、推論性能は飽和し、総パラメータ数と訓練損失が継続的に向上しても逆に低下することがある。活性化パラメータ数が一定の場合、top-kを変更するだけではほとんど効果がなく、学習率や初期化などの古典的なハイパーパラメータはスパース性と同じ方向に汎化ギャップを調整する。訓練後の強化学習(GRPO)や追加のテスト時計算も、過度にスパースなモデルの推論能力の欠陥を補うことはできない。我々のモデルチェックポイント、コード、およびログはhttps://github.com/rioyokotalab/optimal-sparsityで公開されている。
English
Empirical scaling laws have driven the evolution of large language models (LLMs), yet their coefficients shift whenever the model architecture or data pipeline changes. Mixture-of-Experts (MoE) models, now standard in state-of-the-art systems, introduce a new sparsity dimension that current dense-model frontiers overlook. We investigate how MoE sparsity influences two distinct capability regimes: memorization and reasoning. We train families of MoE Transformers that systematically vary total parameters, active parameters, and top-k routing while holding the compute budget fixed. For every model we record pre-training loss, downstream task loss, and task accuracy, allowing us to separate the train-test generalization gap from the loss-accuracy gap. Memorization benchmarks improve monotonically with total parameters, mirroring training loss. By contrast, reasoning performance saturates and can even regress despite continued gains in both total parameters and training loss. Altering top-k alone has little effect when active parameters are constant, and classic hyperparameters such as learning rate and initialization modulate the generalization gap in the same direction as sparsity. Neither post-training reinforcement learning (GRPO) nor extra test-time compute rescues the reasoning deficit of overly sparse models. Our model checkpoints, code and logs are open-source at https://github.com/rioyokotalab/optimal-sparsity.
PDF21August 27, 2025