ChatPaper.aiChatPaper

Benchmarken van Trainingsalgoritmen voor Neurale Netwerken

Benchmarking Neural Network Training Algorithms

June 12, 2023
Auteurs: George E. Dahl, Frank Schneider, Zachary Nado, Naman Agarwal, Chandramouli Shama Sastry, Philipp Hennig, Sourabh Medapati, Runa Eschenhagen, Priya Kasimbeg, Daniel Suo, Juhan Bae, Justin Gilmer, Abel L. Peirson, Bilal Khan, Rohan Anil, Mike Rabbat, Shankar Krishnan, Daniel Snider, Ehsan Amid, Kongtao Chen, Chris J. Maddison, Rakshith Vasudev, Michal Badura, Ankush Garg, Peter Mattson
cs.AI

Samenvatting

Trainingsalgoritmen, in brede zin opgevat, vormen een essentieel onderdeel van elke deep learning-pipeline. Verbeteringen in trainingsalgoritmen die de training versnellen over een breed scala aan workloads (bijvoorbeeld betere update-regels, afstemmingsprotocollen, leercurveschema's of gegevensselectiemethoden) kunnen tijd besparen, rekenbronnen efficiënter benutten en leiden tot betere, nauwkeurigere modellen. Helaas zijn we als gemeenschap momenteel niet in staat om verbeteringen in trainingsalgoritmen betrouwbaar te identificeren, of zelfs maar de state-of-the-art trainingsalgoritmen te bepalen. In dit werk betogen we, aan de hand van concrete experimenten, dat echte vooruitgang in het versnellen van training nieuwe benchmarks vereist die drie fundamentele uitdagingen aanpakken bij empirische vergelijkingen van trainingsalgoritmen: (1) hoe te beslissen wanneer de training voltooid is en de trainingsduur precies te meten, (2) hoe om te gaan met de gevoeligheid van metingen voor specifieke workloaddetails, en (3) hoe algoritmen die hyperparameterafstemming vereisen eerlijk te vergelijken. Om deze uitdagingen aan te pakken, introduceren we een nieuwe, competitieve, tijd-tot-resultaat benchmark met meerdere workloads die op vaste hardware worden uitgevoerd, de AlgoPerf: Training Algorithms benchmark. Onze benchmark omvat een reeks workloadvarianten die het mogelijk maken om inzendingen te detecteren die robuuster zijn tegen workloadveranderingen dan de huidige veelgebruikte methoden. Tot slot evalueren we baseline-inzendingen die zijn opgebouwd met verschillende optimalisatiemethoden die de huidige praktijk vertegenwoordigen, evenals andere optimalisatiemethoden die recentelijk aandacht hebben gekregen in de literatuur. Deze basislijnresultaten tonen gezamenlijk de haalbaarheid van onze benchmark aan, laten zien dat er niet-triviale verschillen tussen methoden bestaan, en stellen een voorlopige state-of-the-art vast die toekomstige benchmarkinzendingen kunnen proberen te overtreffen.
English
Training algorithms, broadly construed, are an essential part of every deep learning pipeline. Training algorithm improvements that speed up training across a wide variety of workloads (e.g., better update rules, tuning protocols, learning rate schedules, or data selection schemes) could save time, save computational resources, and lead to better, more accurate, models. Unfortunately, as a community, we are currently unable to reliably identify training algorithm improvements, or even determine the state-of-the-art training algorithm. In this work, using concrete experiments, we argue that real progress in speeding up training requires new benchmarks that resolve three basic challenges faced by empirical comparisons of training algorithms: (1) how to decide when training is complete and precisely measure training time, (2) how to handle the sensitivity of measurements to exact workload details, and (3) how to fairly compare algorithms that require hyperparameter tuning. In order to address these challenges, we introduce a new, competitive, time-to-result benchmark using multiple workloads running on fixed hardware, the AlgoPerf: Training Algorithms benchmark. Our benchmark includes a set of workload variants that make it possible to detect benchmark submissions that are more robust to workload changes than current widely-used methods. Finally, we evaluate baseline submissions constructed using various optimizers that represent current practice, as well as other optimizers that have recently received attention in the literature. These baseline results collectively demonstrate the feasibility of our benchmark, show that non-trivial gaps between methods exist, and set a provisional state-of-the-art for future benchmark submissions to try and surpass.
PDF231February 8, 2026