Ajuste à Medida que Escala: Otimização de Hiperparâmetros para Treinamento Eficiente em Computação
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training
June 13, 2023
Autores: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI
Resumo
A sintonia de hiperparâmetros em modelos de aprendizado profundo pode resultar em ganhos de desempenho de ordem de magnitude para a mesma quantidade de computação. Apesar disso, a sintonia sistemática é incomum, especialmente para modelos grandes, que são caros de avaliar e tendem a ter muitos hiperparâmetros, exigindo decisões difíceis sobre tradeoffs, orçamentos e limites de busca. Para abordar esses problemas e propor um método prático para a sintonia robusta de modelos grandes, apresentamos o Cost-Aware Pareto Region Bayesian Search (CARBS), um algoritmo de otimização bayesiana que realiza busca local em torno da fronteira de Pareto de desempenho-custo. O CARBS se sai bem mesmo em espaços de busca ilimitados com muitos hiperparâmetros, aprende relações de escalonamento para que possa ajustar modelos mesmo à medida que são ampliados e automatiza grande parte da "magia negra" da sintonia. Entre nossos resultados, resolvemos efetivamente todo o benchmark ProcGen apenas ajustando uma linha de base simples (PPO, conforme fornecido no artigo original do ProcGen). Também reproduzimos o resultado de escalonamento entre tamanho do modelo e tokens de treinamento do projeto Chinchilla (Hoffmann et al. 2022), ao mesmo tempo em que descobrimos leis de escalonamento para todos os outros hiperparâmetros, por meio de um processo automatizado fácil que usa significativamente menos computação e é aplicável a qualquer problema de aprendizado profundo (não apenas modelos de linguagem).
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).