ChatPaper.aiChatPaper

Ajusta Mientras Escalas: Optimización de Hiperparámetros para un Entrenamiento Eficiente en Cómputo

Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training

June 13, 2023
Autores: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI

Resumen

El ajuste de hiperparámetros en modelos de aprendizaje profundo puede generar mejoras de rendimiento de órdenes de magnitud con la misma cantidad de cómputo. A pesar de esto, el ajuste sistemático es poco común, especialmente en modelos grandes, que son costosos de evaluar y tienden a tener muchos hiperparámetros, lo que requiere decisiones difíciles sobre compensaciones, presupuestos y límites de búsqueda. Para abordar estos problemas y proponer un método práctico para ajustar robustamente modelos grandes, presentamos Cost-Aware Pareto Region Bayesian Search (CARBS), un algoritmo de optimización bayesiana que realiza búsquedas locales alrededor de la frontera de Pareto de rendimiento-costo. CARBS funciona bien incluso en espacios de búsqueda ilimitados con muchos hiperparámetros, aprende relaciones de escalado para ajustar modelos a medida que se amplían, y automatiza gran parte de la "magia negra" del ajuste. Entre nuestros resultados, resolvemos efectivamente todo el benchmark ProcGen simplemente ajustando una línea base simple (PPO, como se proporciona en el artículo original de ProcGen). También reproducimos el resultado de escalado entre el tamaño del modelo y los tokens de entrenamiento del proyecto Chinchilla (Hoffmann et al. 2022), mientras descubrimos leyes de escalado para todos los demás hiperparámetros mediante un proceso automatizado sencillo que utiliza significativamente menos cómputo y es aplicable a cualquier problema de aprendizaje profundo (no solo a modelos de lenguaje).
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude performance gains for the same amount of compute. Despite this, systematic tuning is uncommon, particularly for large models, which are expensive to evaluate and tend to have many hyperparameters, necessitating difficult judgment calls about tradeoffs, budgets, and search bounds. To address these issues and propose a practical method for robustly tuning large models, we present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian optimization algorithm that performs local search around the performance-cost Pareto frontier. CARBS does well even in unbounded search spaces with many hyperparameters, learns scaling relationships so that it can tune models even as they are scaled up, and automates much of the "black magic" of tuning. Among our results, we effectively solve the entire ProcGen benchmark just by tuning a simple baseline (PPO, as provided in the original ProcGen paper). We also reproduce the model size vs. training tokens scaling result from the Chinchilla project (Hoffmann et al. 2022), while simultaneously discovering scaling laws for every other hyperparameter, via an easy automated process that uses significantly less compute and is applicable to any deep learning problem (not just language models).
PDF30December 15, 2024