ChatPaper.aiChatPaper

Stepsize anything: Ein einheitlicher Lernratenplan für das Training mit begrenzter Iterationsanzahl

Stepsize anything: A unified learning rate schedule for budgeted-iteration training

May 30, 2025
Autoren: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI

Zusammenfassung

Die steigenden Rechenkosten und begrenzten Ressourcen unterstreichen den dringenden Bedarf an budgetierter Iterationstraining, das darauf abzielt, optimales Lernen innerhalb vorgegebener Iterationsbudgets zu erreichen. Während Lernratenpläne die Leistung verschiedener Netzwerke und Aufgaben grundlegend beeinflussen, insbesondere in Szenarien mit budgetierten Iterationen, bleibt ihre Gestaltung weitgehend heuristisch und ohne theoretische Grundlagen. Darüber hinaus erfordert der optimale Lernratenplan eine umfangreiche Versuchs- und Irrtumsauswahl, was den Trainingsprozess ineffizient macht. In dieser Arbeit schlagen wir den Unified Budget-Aware (UBA) Plan vor, einen theoretisch fundierten Lernratenplan, der unter verschiedenen begrenzten Trainingsbudgets konsistent besser abschneidet als häufig verwendete Pläne bei verschiedenen Architekturen und Aufgaben. Zunächst schließen wir die Lücke, indem wir ein neuartiges Trainingsbudget-optimiertes Framework konstruieren, das explizit die Robustheit gegenüber Variationen der Landschaftskrümmung berücksichtigt. Aus diesem Framework leiten wir den UBA-Plan ab, der durch einen einzigen Hyperparameter varphi gesteuert wird, der einen Kompromiss zwischen Flexibilität und Einfachheit bietet und die Notwendigkeit einer netzwerkspezifischen numerischen Optimierung eliminiert. Darüber hinaus stellen wir eine theoretische Verbindung zwischen varphi und der Konditionszahl her, was unserer Methode Interpretation und Rechtfertigung verleiht. Zusätzlich beweisen wir die Konvergenz für verschiedene Werte von varphi. Wir bieten praktische Richtlinien für seine Auswahl durch theoretische Analyse und empirische Ergebnisse. Umfangreiche experimentelle Ergebnisse zeigen, dass UBA die häufig verwendeten Pläne bei verschiedenen Vision- und Sprachaufgaben, die Netzwerkarchitekturen (z.B. ResNet, OLMo) und Skalen umfassen, unter verschiedenen Trainings-Iterationsbudgets konsistent übertrifft.
English
The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of varphi.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
PDF52June 3, 2025