Stepsize anything: Ein einheitlicher Lernratenplan für das Training mit begrenzter Iterationsanzahl
Stepsize anything: A unified learning rate schedule for budgeted-iteration training
May 30, 2025
Autoren: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI
Zusammenfassung
Die steigenden Rechenkosten und begrenzten Ressourcen unterstreichen den dringenden Bedarf an budgetierter Iterationstraining, das darauf abzielt, optimales Lernen innerhalb vorgegebener Iterationsbudgets zu erreichen. Während Lernratenpläne die Leistung verschiedener Netzwerke und Aufgaben grundlegend beeinflussen, insbesondere in Szenarien mit budgetierten Iterationen, bleibt ihre Gestaltung weitgehend heuristisch und ohne theoretische Grundlagen. Darüber hinaus erfordert der optimale Lernratenplan eine umfangreiche Versuchs- und Irrtumsauswahl, was den Trainingsprozess ineffizient macht. In dieser Arbeit schlagen wir den Unified Budget-Aware (UBA) Plan vor, einen theoretisch fundierten Lernratenplan, der unter verschiedenen begrenzten Trainingsbudgets konsistent besser abschneidet als häufig verwendete Pläne bei verschiedenen Architekturen und Aufgaben. Zunächst schließen wir die Lücke, indem wir ein neuartiges Trainingsbudget-optimiertes Framework konstruieren, das explizit die Robustheit gegenüber Variationen der Landschaftskrümmung berücksichtigt. Aus diesem Framework leiten wir den UBA-Plan ab, der durch einen einzigen Hyperparameter varphi gesteuert wird, der einen Kompromiss zwischen Flexibilität und Einfachheit bietet und die Notwendigkeit einer netzwerkspezifischen numerischen Optimierung eliminiert. Darüber hinaus stellen wir eine theoretische Verbindung zwischen varphi und der Konditionszahl her, was unserer Methode Interpretation und Rechtfertigung verleiht. Zusätzlich beweisen wir die Konvergenz für verschiedene Werte von varphi. Wir bieten praktische Richtlinien für seine Auswahl durch theoretische Analyse und empirische Ergebnisse. Umfangreiche experimentelle Ergebnisse zeigen, dass UBA die häufig verwendeten Pläne bei verschiedenen Vision- und Sprachaufgaben, die Netzwerkarchitekturen (z.B. ResNet, OLMo) und Skalen umfassen, unter verschiedenen Trainings-Iterationsbudgets konsistent übertrifft.
English
The expanding computational costs and limited resources underscore the
critical need for budgeted-iteration training, which aims to achieve optimal
learning within predetermined iteration budgets.While learning rate schedules
fundamentally govern the performance of different networks and tasks,
particularly in budgeted-iteration scenarios, their design remains largely
heuristic, lacking theoretical foundations.In addition, the optimal learning
rate schedule requires extensive trial-and-error selection, making the training
process inefficient.In this work, we propose the Unified Budget-Aware (UBA)
schedule, a theoretically grounded learning rate schedule that consistently
outperforms commonly-used schedules among diverse architectures and tasks under
different constrained training budgets.First, we bridge the gap by constructing
a novel training budget-aware optimization framework, which explicitly accounts
for the robustness to landscape curvature variations.From this framework, we
derive the UBA schedule, controlled by a single hyper-parameter varphi that
provides a trade-off between flexibility and simplicity, eliminating the need
for per-network numerical optimization. Moreover, we establish a theoretical
connection between varphi and the condition number, adding interpretation
and justification to our approach. Besides, we prove the convergence for
different values of varphi.We offer practical guidelines for its selection
via theoretical analysis and empirical results.xtensive experimental results
show that UBA consistently surpasses the commonly-used schedules
across diverse vision and language tasks, spanning network architectures (e.g.,
ResNet, OLMo) and scales, under different training-iteration budgets.