Tune As You Scale: Hyperparameteroptimierung für recheneffizientes Training
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training
June 13, 2023
Autoren: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI
Zusammenfassung
Die Optimierung von Hyperparametern bei Deep-Learning-Modellen kann zu Leistungssteigerungen in der Größenordnung führen, bei gleichem Rechenaufwand. Dennoch ist eine systematische Optimierung unüblich, insbesondere bei großen Modellen, deren Evaluierung kostspielig ist und die tendenziell viele Hyperparameter aufweisen, was schwierige Abwägungen hinsichtlich Kompromissen, Budgets und Suchgrenzen erfordert. Um diese Probleme zu adressieren und eine praktische Methode zur robusten Optimierung großer Modelle vorzuschlagen, präsentieren wir Cost-Aware Pareto Region Bayesian Search (CARBS), einen Bayesianischen Optimierungsalgorithmus, der eine lokale Suche entlang der Leistungs-Kosten-Pareto-Grenze durchführt. CARBS funktioniert auch in unbegrenzten Suchräumen mit vielen Hyperparametern effektiv, lernt Skalierungsbeziehungen, sodass es Modelle auch bei deren Skalierung optimieren kann, und automatisiert einen Großteil der „schwarzen Magie“ der Optimierung. Zu unseren Ergebnissen gehört, dass wir den gesamten ProcGen-Benchmark effektiv lösen, indem wir lediglich eine einfache Baseline (PPO, wie im ursprünglichen ProcGen-Paper beschrieben) optimieren. Zudem reproduzieren wir das Ergebnis zur Skalierung von Modellgröße vs. Trainings-Tokens aus dem Chinchilla-Projekt (Hoffmann et al. 2022), während wir gleichzeitig Skalierungsgesetze für jeden anderen Hyperparameter entdecken – durch einen einfachen, automatisierten Prozess, der deutlich weniger Rechenleistung erfordert und auf jedes Deep-Learning-Problem anwendbar ist (nicht nur auf Sprachmodelle).
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).