Ajustez en montant en puissance : optimisation des hyperparamètres pour un entraînement efficace en termes de calcul

Résumé

Le réglage des hyperparamètres des modèles d'apprentissage profond peut entraîner des gains de performance d'un ordre de grandeur pour la même quantité de calcul. Malgré cela, un réglage systématique est rare, en particulier pour les grands modèles, qui sont coûteux à évaluer et ont tendance à avoir de nombreux hyperparamètres, nécessitant des décisions difficiles concernant les compromis, les budgets et les limites de recherche. Pour résoudre ces problèmes et proposer une méthode pratique pour régler de manière robuste les grands modèles, nous présentons Cost-Aware Pareto Region Bayesian Search (CARBS), un algorithme d'optimisation bayésienne qui effectue une recherche locale autour de la frontière de Pareto performance-coût. CARBS fonctionne bien même dans des espaces de recherche non bornés avec de nombreux hyperparamètres, apprend les relations d'échelle afin de pouvoir régler les modèles même lorsqu'ils sont mis à l'échelle, et automatise une grande partie de la "magie noire" du réglage. Parmi nos résultats, nous résolvons efficacement l'intégralité du benchmark ProcGen simplement en réglant une base simple (PPO, tel que fourni dans l'article original de ProcGen). Nous reproduisons également le résultat d'échelle entre la taille du modèle et les jetons d'entraînement du projet Chinchilla (Hoffmann et al. 2022), tout en découvrant simultanément des lois d'échelle pour tous les autres hyperparamètres, via un processus automatisé simple qui utilise significativement moins de calcul et est applicable à tout problème d'apprentissage profond (pas seulement les modèles de langage).

English

Hyperparameter tuning of deep learning models can lead to order-of-magnitude performance gains for the same amount of compute. Despite this, systematic tuning is uncommon, particularly for large models, which are expensive to evaluate and tend to have many hyperparameters, necessitating difficult judgment calls about tradeoffs, budgets, and search bounds. To address these issues and propose a practical method for robustly tuning large models, we present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian optimization algorithm that performs local search around the performance-cost Pareto frontier. CARBS does well even in unbounded search spaces with many hyperparameters, learns scaling relationships so that it can tune models even as they are scaled up, and automates much of the "black magic" of tuning. Among our results, we effectively solve the entire ProcGen benchmark just by tuning a simple baseline (PPO, as provided in the original ProcGen paper). We also reproduce the model size vs. training tokens scaling result from the Chinchilla project (Hoffmann et al. 2022), while simultaneously discovering scaling laws for every other hyperparameter, via an easy automated process that uses significantly less compute and is applicable to any deep learning problem (not just language models).

Ajustez en montant en puissance : optimisation des hyperparamètres pour un entraînement efficace en termes de calcul

Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training

Résumé

Support