Ottimizzazione degli Iperparametri per un Addestramento Efficiente in Termini di Calcolo: Regolazione in Scala
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training
June 13, 2023
Autori: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI
Abstract
L'ottimizzazione degli iperparametri nei modelli di deep learning può portare a miglioramenti delle prestazioni di un ordine di grandezza a parità di risorse computazionali. Nonostante ciò, una sintonizzazione sistematica è poco comune, specialmente per i modelli di grandi dimensioni, che sono costosi da valutare e tendono ad avere molti iperparametri, rendendo necessarie scelte complesse riguardo ai compromessi, ai budget e ai limiti di ricerca. Per affrontare questi problemi e proporre un metodo pratico per sintonizzare in modo robusto i modelli di grandi dimensioni, presentiamo Cost-Aware Pareto Region Bayesian Search (CARBS), un algoritmo di ottimizzazione bayesiana che esegue una ricerca locale attorno alla frontiera di Pareto prestazioni-costo. CARBS si comporta bene anche in spazi di ricerca illimitati con molti iperparametri, apprende relazioni di scalabilità in modo da poter sintonizzare i modelli man mano che vengono scalati, e automatizza gran parte della "magia nera" della sintonizzazione. Tra i nostri risultati, risolviamo efficacemente l'intero benchmark ProcGen semplicemente sintonizzando una baseline semplice (PPO, come fornito nel documento originale di ProcGen). Riproduciamo inoltre il risultato di scalabilità tra dimensione del modello e token di addestramento del progetto Chinchilla (Hoffmann et al. 2022), scoprendo simultaneamente leggi di scalabilità per ogni altro iperparametro, attraverso un processo automatizzato semplice che utilizza significativamente meno risorse computazionali ed è applicabile a qualsiasi problema di deep learning (non solo ai modelli linguistici).
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).