Ottimizzazione degli Iperparametri per un Addestramento Efficiente in Termini di Calcolo: Regolazione in Scala

Abstract

L'ottimizzazione degli iperparametri nei modelli di deep learning può portare a miglioramenti delle prestazioni di un ordine di grandezza a parità di risorse computazionali. Nonostante ciò, una sintonizzazione sistematica è poco comune, specialmente per i modelli di grandi dimensioni, che sono costosi da valutare e tendono ad avere molti iperparametri, rendendo necessarie scelte complesse riguardo ai compromessi, ai budget e ai limiti di ricerca. Per affrontare questi problemi e proporre un metodo pratico per sintonizzare in modo robusto i modelli di grandi dimensioni, presentiamo Cost-Aware Pareto Region Bayesian Search (CARBS), un algoritmo di ottimizzazione bayesiana che esegue una ricerca locale attorno alla frontiera di Pareto prestazioni-costo. CARBS si comporta bene anche in spazi di ricerca illimitati con molti iperparametri, apprende relazioni di scalabilità in modo da poter sintonizzare i modelli man mano che vengono scalati, e automatizza gran parte della "magia nera" della sintonizzazione. Tra i nostri risultati, risolviamo efficacemente l'intero benchmark ProcGen semplicemente sintonizzando una baseline semplice (PPO, come fornito nel documento originale di ProcGen). Riproduciamo inoltre il risultato di scalabilità tra dimensione del modello e token di addestramento del progetto Chinchilla (Hoffmann et al. 2022), scoprendo simultaneamente leggi di scalabilità per ogni altro iperparametro, attraverso un processo automatizzato semplice che utilizza significativamente meno risorse computazionali ed è applicabile a qualsiasi problema di deep learning (non solo ai modelli linguistici).

English

Hyperparameter tuning of deep learning models can lead to order-of-magnitude performance gains for the same amount of compute. Despite this, systematic tuning is uncommon, particularly for large models, which are expensive to evaluate and tend to have many hyperparameters, necessitating difficult judgment calls about tradeoffs, budgets, and search bounds. To address these issues and propose a practical method for robustly tuning large models, we present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian optimization algorithm that performs local search around the performance-cost Pareto frontier. CARBS does well even in unbounded search spaces with many hyperparameters, learns scaling relationships so that it can tune models even as they are scaled up, and automates much of the "black magic" of tuning. Among our results, we effectively solve the entire ProcGen benchmark just by tuning a simple baseline (PPO, as provided in the original ProcGen paper). We also reproduce the model size vs. training tokens scaling result from the Chinchilla project (Hoffmann et al. 2022), while simultaneously discovering scaling laws for every other hyperparameter, via an easy automated process that uses significantly less compute and is applicable to any deep learning problem (not just language models).

Ottimizzazione degli Iperparametri per un Addestramento Efficiente in Termini di Calcolo: Regolazione in Scala

Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training

Abstract

Support