スケールに応じて調整:計算効率の良いトレーニングのためのハイパーパラメータ最適化
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training
June 13, 2023
著者: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI
要旨
深層学習モデルのハイパーパラメータチューニングは、同じ計算量で桁違いの性能向上をもたらす可能性があります。しかし、体系的にチューニングを行うことは稀であり、特に大規模モデルでは評価コストが高く、多くのハイパーパラメータを抱えるため、トレードオフ、予算、探索範囲に関する難しい判断が必要となります。これらの課題に対処し、大規模モデルを堅牢にチューニングする実用的な方法を提案するため、我々はCost-Aware Pareto Region Bayesian Search(CARBS)を紹介します。これは、性能とコストのパレートフロンティア周辺で局所探索を行うベイズ最適化アルゴリズムです。CARBSは、多くのハイパーパラメータを持つ無制限の探索空間でも良好に機能し、スケーリング関係を学習することでモデルがスケールアップされてもチューニングを継続し、チューニングの「ブラックマジック」の多くを自動化します。我々の結果の中には、単純なベースライン(ProcGen論文で提供されたPPO)をチューニングするだけでProcGenベンチマーク全体を効果的に解決した例があります。また、Chinchillaプロジェクト(Hoffmann et al. 2022)のモデルサイズとトレーニングトークンのスケーリング結果を再現しつつ、他のすべてのハイパーパラメータのスケーリング法則を発見しました。これは、大幅に少ない計算量で行える簡単な自動化プロセスであり、言語モデルに限らず、あらゆる深層学習問題に適用可能です。
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).