ChatPaper.aiChatPaper

Сравнительный анализ алгоритмов обучения нейронных сетей

Benchmarking Neural Network Training Algorithms

June 12, 2023
Авторы: George E. Dahl, Frank Schneider, Zachary Nado, Naman Agarwal, Chandramouli Shama Sastry, Philipp Hennig, Sourabh Medapati, Runa Eschenhagen, Priya Kasimbeg, Daniel Suo, Juhan Bae, Justin Gilmer, Abel L. Peirson, Bilal Khan, Rohan Anil, Mike Rabbat, Shankar Krishnan, Daniel Snider, Ehsan Amid, Kongtao Chen, Chris J. Maddison, Rakshith Vasudev, Michal Badura, Ankush Garg, Peter Mattson
cs.AI

Аннотация

Алгоритмы обучения, в широком смысле, являются важной частью любого конвейера глубокого обучения. Улучшения алгоритмов обучения, которые ускоряют процесс обучения для широкого спектра задач (например, более эффективные правила обновления, протоколы настройки, графики изменения скорости обучения или схемы выбора данных), могут сэкономить время, вычислительные ресурсы и привести к созданию более качественных и точных моделей. К сожалению, в настоящее время сообщество не способно надежно идентифицировать улучшения алгоритмов обучения или даже определить современное состояние этого направления. В данной работе, используя конкретные эксперименты, мы утверждаем, что реальный прогресс в ускорении обучения требует новых бенчмарков, которые решают три основные проблемы, с которыми сталкиваются эмпирические сравнения алгоритмов обучения: (1) как определить, когда обучение завершено, и точно измерить время обучения, (2) как учитывать чувствительность измерений к деталям конкретной задачи, и (3) как справедливо сравнивать алгоритмы, требующие настройки гиперпараметров. Для решения этих проблем мы представляем новый конкурентный бенчмарк, измеряющий время до достижения результата, с использованием множества задач, выполняемых на фиксированном оборудовании, — бенчмарк AlgoPerf: Training Algorithms. Наш бенчмарк включает набор вариантов задач, которые позволяют обнаруживать решения, более устойчивые к изменениям задач, чем текущие широко используемые методы. Наконец, мы оцениваем базовые решения, созданные с использованием различных оптимизаторов, представляющих текущую практику, а также других оптимизаторов, которые недавно привлекли внимание в научной литературе. Эти базовые результаты в совокупности демонстрируют осуществимость нашего бенчмарка, показывают существование значительных различий между методами и устанавливают временное состояние современного уровня, которое будущие решения могут попытаться превзойти.
English
Training algorithms, broadly construed, are an essential part of every deep learning pipeline. Training algorithm improvements that speed up training across a wide variety of workloads (e.g., better update rules, tuning protocols, learning rate schedules, or data selection schemes) could save time, save computational resources, and lead to better, more accurate, models. Unfortunately, as a community, we are currently unable to reliably identify training algorithm improvements, or even determine the state-of-the-art training algorithm. In this work, using concrete experiments, we argue that real progress in speeding up training requires new benchmarks that resolve three basic challenges faced by empirical comparisons of training algorithms: (1) how to decide when training is complete and precisely measure training time, (2) how to handle the sensitivity of measurements to exact workload details, and (3) how to fairly compare algorithms that require hyperparameter tuning. In order to address these challenges, we introduce a new, competitive, time-to-result benchmark using multiple workloads running on fixed hardware, the AlgoPerf: Training Algorithms benchmark. Our benchmark includes a set of workload variants that make it possible to detect benchmark submissions that are more robust to workload changes than current widely-used methods. Finally, we evaluate baseline submissions constructed using various optimizers that represent current practice, as well as other optimizers that have recently received attention in the literature. These baseline results collectively demonstrate the feasibility of our benchmark, show that non-trivial gaps between methods exist, and set a provisional state-of-the-art for future benchmark submissions to try and surpass.
PDF231December 15, 2024