Настройка по мере масштабирования: оптимизация гиперпараметров для эффективного обучения с учетом вычислительных ресурсов
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training
June 13, 2023
Авторы: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu
cs.AI
Аннотация
Тонкая настройка гиперпараметров моделей глубокого обучения может привести к увеличению производительности на порядки при том же объеме вычислений. Несмотря на это, систематическая настройка встречается редко, особенно для крупных моделей, которые дорого оценивать и которые, как правило, имеют множество гиперпараметров, что требует сложных решений о компромиссах, бюджетах и границах поиска. Чтобы решить эти проблемы и предложить практический метод для надежной настройки крупных моделей, мы представляем Cost-Aware Pareto Region Bayesian Search (CARBS) — алгоритм байесовской оптимизации, который выполняет локальный поиск вокруг Парето-фронта производительности и затрат. CARBS эффективно работает даже в неограниченных пространствах поиска с множеством гиперпараметров, изучает масштабные зависимости, что позволяет настраивать модели по мере их масштабирования, и автоматизирует большую часть "черной магии" настройки. Среди наших результатов мы эффективно решаем весь бенчмарк ProcGen, просто настраивая простой базовый алгоритм (PPO, как он представлен в оригинальной статье ProcGen). Мы также воспроизводим результат масштабирования размера модели и количества токенов обучения из проекта Chinchilla (Hoffmann et al. 2022), одновременно открывая законы масштабирования для всех остальных гиперпараметров с помощью простого автоматизированного процесса, который требует значительно меньше вычислений и применим к любой задаче глубокого обучения (не только к языковым моделям).
English
Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).