Настройка по мере масштабирования: оптимизация гиперпараметров для эффективного обучения с учетом вычислительных ресурсов

Аннотация

Тонкая настройка гиперпараметров моделей глубокого обучения может привести к увеличению производительности на порядки при том же объеме вычислений. Несмотря на это, систематическая настройка встречается редко, особенно для крупных моделей, которые дорого оценивать и которые, как правило, имеют множество гиперпараметров, что требует сложных решений о компромиссах, бюджетах и границах поиска. Чтобы решить эти проблемы и предложить практический метод для надежной настройки крупных моделей, мы представляем Cost-Aware Pareto Region Bayesian Search (CARBS) — алгоритм байесовской оптимизации, который выполняет локальный поиск вокруг Парето-фронта производительности и затрат. CARBS эффективно работает даже в неограниченных пространствах поиска с множеством гиперпараметров, изучает масштабные зависимости, что позволяет настраивать модели по мере их масштабирования, и автоматизирует большую часть "черной магии" настройки. Среди наших результатов мы эффективно решаем весь бенчмарк ProcGen, просто настраивая простой базовый алгоритм (PPO, как он представлен в оригинальной статье ProcGen). Мы также воспроизводим результат масштабирования размера модели и количества токенов обучения из проекта Chinchilla (Hoffmann et al. 2022), одновременно открывая законы масштабирования для всех остальных гиперпараметров с помощью простого автоматизированного процесса, который требует значительно меньше вычислений и применим к любой задаче глубокого обучения (не только к языковым моделям).

English

Hyperparameter tuning of deep learning models can lead to order-of-magnitude performance gains for the same amount of compute. Despite this, systematic tuning is uncommon, particularly for large models, which are expensive to evaluate and tend to have many hyperparameters, necessitating difficult judgment calls about tradeoffs, budgets, and search bounds. To address these issues and propose a practical method for robustly tuning large models, we present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian optimization algorithm that performs local search around the performance-cost Pareto frontier. CARBS does well even in unbounded search spaces with many hyperparameters, learns scaling relationships so that it can tune models even as they are scaled up, and automates much of the "black magic" of tuning. Among our results, we effectively solve the entire ProcGen benchmark just by tuning a simple baseline (PPO, as provided in the original ProcGen paper). We also reproduce the model size vs. training tokens scaling result from the Chinchilla project (Hoffmann et al. 2022), while simultaneously discovering scaling laws for every other hyperparameter, via an easy automated process that uses significantly less compute and is applicable to any deep learning problem (not just language models).

Настройка по мере масштабирования: оптимизация гиперпараметров для эффективного обучения с учетом вычислительных ресурсов

Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training

Аннотация

Support