Stepsize alles: Een uniform leerschema voor training met beperkt aantal iteraties
Stepsize anything: A unified learning rate schedule for budgeted-iteration training
May 30, 2025
Auteurs: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI
Samenvatting
De toenemende rekenkosten en beperkte middelen benadrukken de kritische noodzaak voor training met een vooraf bepaald aantal iteraties, die gericht is op optimaal leren binnen vooraf vastgestelde iteratiebudgetten. Hoewel leercurveschema's fundamenteel de prestaties van verschillende netwerken en taken bepalen, met name in scenario's met een beperkt aantal iteraties, blijft hun ontwerp grotendeels heuristisch en ontbreekt het aan theoretische onderbouwing. Bovendien vereist het optimale leercurveschema uitgebreide trial-and-error selectie, wat het trainingsproces inefficiënt maakt. In dit werk stellen we het Unified Budget-Aware (UBA) schema voor, een theoretisch onderbouwd leercurveschema dat consistent beter presteert dan veelgebruikte schema's bij diverse architecturen en taken onder verschillende beperkte trainingsbudgetten. Eerst overbruggen we de kloof door een nieuw trainingsbudgetbewust optimalisatiekader te construeren, dat expliciet rekening houdt met de robuustheid tegen variaties in landschapskromming. Uit dit kader leiden we het UBA-schema af, dat wordt gecontroleerd door een enkele hyperparameter varphi die een afweging biedt tussen flexibiliteit en eenvoud, waardoor per-netwerk numerieke optimalisatie overbodig wordt. Bovendien leggen we een theoretisch verband tussen varphi en het conditiegetal, wat interpretatie en rechtvaardiging toevoegt aan onze aanpak. Daarnaast bewijzen we de convergentie voor verschillende waarden van varphi. We bieden praktische richtlijnen voor de selectie ervan via theoretische analyse en empirische resultaten. Uitgebreide experimentele resultaten tonen aan dat UBA consistent beter presteert dan de veelgebruikte schema's bij diverse visuele en taaltaken, over verschillende netwerkarchitecturen (bijv. ResNet, OLMo) en schalen, onder verschillende trainingsiteratiebudgetten.
English
The expanding computational costs and limited resources underscore the
critical need for budgeted-iteration training, which aims to achieve optimal
learning within predetermined iteration budgets.While learning rate schedules
fundamentally govern the performance of different networks and tasks,
particularly in budgeted-iteration scenarios, their design remains largely
heuristic, lacking theoretical foundations.In addition, the optimal learning
rate schedule requires extensive trial-and-error selection, making the training
process inefficient.In this work, we propose the Unified Budget-Aware (UBA)
schedule, a theoretically grounded learning rate schedule that consistently
outperforms commonly-used schedules among diverse architectures and tasks under
different constrained training budgets.First, we bridge the gap by constructing
a novel training budget-aware optimization framework, which explicitly accounts
for the robustness to landscape curvature variations.From this framework, we
derive the UBA schedule, controlled by a single hyper-parameter varphi that
provides a trade-off between flexibility and simplicity, eliminating the need
for per-network numerical optimization. Moreover, we establish a theoretical
connection between varphi and the condition number, adding interpretation
and justification to our approach. Besides, we prove the convergence for
different values of varphi.We offer practical guidelines for its selection
via theoretical analysis and empirical results.xtensive experimental results
show that UBA consistently surpasses the commonly-used schedules
across diverse vision and language tasks, spanning network architectures (e.g.,
ResNet, OLMo) and scales, under different training-iteration budgets.