Tune Naarmate Je Schaalt: Hyperparameteroptimalisatie voor Rekenkundig Efficiënte Training
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training
June 13, 2023
Auteurs: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI
Samenvatting
Hyperparameterafstemming van deep learning-modellen kan leiden tot prestatieverbeteringen van een orde van grootte bij dezelfde hoeveelheid rekenkracht. Desondanks is systematische afstemming ongebruikelijk, vooral voor grote modellen, die duur zijn om te evalueren en vaak veel hyperparameters hebben, wat moeilijke afwegingen vereist over compromissen, budgetten en zoekgrenzen. Om deze problemen aan te pakken en een praktische methode voor te stellen voor het robuust afstemmen van grote modellen, presenteren we Cost-Aware Pareto Region Bayesian Search (CARBS), een Bayesiaanse optimalisatie-algoritme dat lokaal zoekt rond de prestatie-kosten Pareto-grens. CARBS presteert goed, zelfs in onbegrensde zoekruimtes met veel hyperparameters, leert schaalrelaties zodat het modellen kan afstemmen terwijl ze worden opgeschaald, en automatiseert veel van de "zwarte magie" van afstemming. Onder onze resultaten lossen we effectief de gehele ProcGen-benchmark op door alleen een eenvoudige baseline af te stemmen (PPO, zoals geleverd in het oorspronkelijke ProcGen-paper). We reproduceren ook het resultaat van de modelgrootte versus trainings-tokens schaling uit het Chinchilla-project (Hoffmann et al. 2022), terwijl we tegelijkertijd schaalwetten ontdekken voor elke andere hyperparameter, via een eenvoudig geautomatiseerd proces dat aanzienlijk minder rekenkracht gebruikt en toepasbaar is op elk deep learning-probleem (niet alleen taalmodellen).
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).