μPにおけるスペクトル条件の幅-深さスケーリングに関する考察
Spectral Condition for μP under Width-Depth Scaling
February 28, 2026
著者: Chenyu Zheng, Rongzhen Wang, Xinyu Zhang, Chongxuan Li
cs.AI
要旨
生成的基盤モデルは、幅と深さの両方でスケーリングが進んでおり、安定した特徴学習とモデルサイズを超えた信頼性のあるハイパーパラメータ(HP)転移に重大な課題をもたらしている。幅方向のスケーリングについては、最大更新パラメータ化(μP)が両問題に対する原理的な解決策を提供してきたが、幅と深さを同時にスケーリングする領域への既存の拡張は、断片的で、アーキテクチャやオプティマイザに依存し、技術的に複雑な理論に依存することが多い。本研究では、幅と深さの同時スケーリングにおけるμPのための簡潔で統一的なスペクトル枠組みを開発する。様々なブロック深度を持つ残差ネットワークを考察し、まずスペクトルμP条件を導入する。これは、重みのノルムとそのステップ毎の更新が幅と深度に応じてどのようにスケーリングされるべきかを精密に特徴付け、従来の断片的なμPの定式化を特殊ケースとして統一する。この条件に基づき、次にスペクトル制約を具体的なHPパラメータ化に対応させることで、広範なオプティマイザクラスにわたるμP実装の一般的な手法を導出する。このアプローチは、既存のμP定式化(例えばSGDやAdamW向け)を再現するだけでなく、より広範なオプティマイザへ自然に拡張する。最後に、GPT-2スタイルの言語モデルを用いた実験により、提案されたスペクトルμP条件が安定した特徴学習を維持し、幅-深度スケーリング下で頑健なHP転移を可能にすることを実証する。
English
Generative foundation models are increasingly scaled in both width and depth, posing significant challenges for stable feature learning and reliable hyperparameter (HP) transfer across model sizes. While maximal update parameterization (μP) has provided a principled solution to both problems for width scaling, existing extensions to the joint width-depth scaling regime remain fragmented, architecture- and optimizer-specific, and often rely on technically involved theories. In this work, we develop a simple and unified spectral framework for μP under joint width-depth scaling. Considering residual networks of varying block depths, we first introduce a spectral μP condition that precisely characterizes how the norms of weights and their per-step updates should scale with width and depth, unifying previously disparate μP formulations as special cases. Building on this condition, we then derive a general recipe for implementing μP across a broad class of optimizers by mapping the spectral constraints to concrete HP parameterizations. This approach not only recovers existing μP formulations (e.g., for SGD and AdamW) but also naturally extends to a wider range of optimizers. Finally, experiments on GPT-2 style language models demonstrate that the proposed spectral μP condition preserves stable feature learning and enables robust HP transfer under width-depth scaling.