Passo qualsiasi: una pianificazione unificata del tasso di apprendimento per l'addestramento con iterazioni vincolate al budget
Stepsize anything: A unified learning rate schedule for budgeted-iteration training
May 30, 2025
Autori: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI
Abstract
I crescenti costi computazionali e le risorse limitate sottolineano la necessità critica di un addestramento con iterazioni budgetate, che mira a ottenere un apprendimento ottimale entro budget di iterazione predeterminati. Sebbene le pianificazioni del tasso di apprendimento governino fondamentalmente le prestazioni di diverse reti e task, specialmente negli scenari con iterazioni budgetate, il loro design rimane largamente euristico, privo di fondamenti teorici. Inoltre, la pianificazione ottimale del tasso di apprendimento richiede una selezione estensiva per tentativi ed errori, rendendo il processo di addestramento inefficiente. In questo lavoro, proponiamo la pianificazione Unified Budget-Aware (UBA), una pianificazione del tasso di apprendimento basata su teorie che supera costantemente le pianificazioni comunemente utilizzate tra diverse architetture e task sotto diversi budget di addestramento vincolati. In primo luogo, colmiamo il divario costruendo un nuovo framework di ottimizzazione consapevole del budget di addestramento, che tiene esplicitamente conto della robustezza alle variazioni della curvatura del paesaggio. Da questo framework, deriviamo la pianificazione UBA, controllata da un singolo iperparametro varphi che fornisce un compromesso tra flessibilità e semplicità, eliminando la necessità di ottimizzazione numerica per rete. Inoltre, stabiliamo una connessione teorica tra varphi e il numero di condizione, aggiungendo interpretazione e giustificazione al nostro approccio. Oltre a ciò, dimostriamo la convergenza per diversi valori di varphi. Offriamo linee guida pratiche per la sua selezione attraverso analisi teoriche e risultati empirici. Estesi risultati sperimentali mostrano che UBA supera costantemente le pianificazioni comunemente utilizzate in diversi task di visione e linguaggio, abbracciando architetture di rete (ad esempio, ResNet, OLMo) e scale, sotto diversi budget di iterazione di addestramento.
English
The expanding computational costs and limited resources underscore the
critical need for budgeted-iteration training, which aims to achieve optimal
learning within predetermined iteration budgets.While learning rate schedules
fundamentally govern the performance of different networks and tasks,
particularly in budgeted-iteration scenarios, their design remains largely
heuristic, lacking theoretical foundations.In addition, the optimal learning
rate schedule requires extensive trial-and-error selection, making the training
process inefficient.In this work, we propose the Unified Budget-Aware (UBA)
schedule, a theoretically grounded learning rate schedule that consistently
outperforms commonly-used schedules among diverse architectures and tasks under
different constrained training budgets.First, we bridge the gap by constructing
a novel training budget-aware optimization framework, which explicitly accounts
for the robustness to landscape curvature variations.From this framework, we
derive the UBA schedule, controlled by a single hyper-parameter varphi that
provides a trade-off between flexibility and simplicity, eliminating the need
for per-network numerical optimization. Moreover, we establish a theoretical
connection between varphi and the condition number, adding interpretation
and justification to our approach. Besides, we prove the convergence for
different values of varphi.We offer practical guidelines for its selection
via theoretical analysis and empirical results.xtensive experimental results
show that UBA consistently surpasses the commonly-used schedules
across diverse vision and language tasks, spanning network architectures (e.g.,
ResNet, OLMo) and scales, under different training-iteration budgets.