ステップサイズの統一化:予算制約付き反復訓練のための統一学習率スケジュール
Stepsize anything: A unified learning rate schedule for budgeted-iteration training
May 30, 2025
著者: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI
要旨
計算コストの拡大と限られたリソースは、所定のイテレーション予算内で最適な学習を達成することを目指す、予算制約付きイテレーショントレーニングの重要性を強調しています。学習率スケジュールは、特に予算制約付きシナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に支配しますが、その設計は依然としてヒューリスティックで、理論的基盤を欠いています。さらに、最適な学習率スケジュールは、広範な試行錯誤を必要とし、トレーニングプロセスを非効率にします。本研究では、理論的に裏付けられた学習率スケジュールであるUnified Budget-Aware (UBA)スケジュールを提案します。このスケジュールは、異なる制約付きトレーニング予算下で、多様なアーキテクチャやタスクにおいて、一般的に使用されるスケジュールを一貫して上回ります。まず、ランドスケープの曲率変動に対するロバスト性を明示的に考慮する、新しいトレーニング予算対応最適化フレームワークを構築することで、このギャップを埋めます。このフレームワークから、柔軟性と簡潔さのトレードオフを提供する単一のハイパーパラメータvarphiによって制御されるUBAスケジュールを導出し、ネットワークごとの数値最適化の必要性を排除します。さらに、varphiと条件数との間に理論的な関連性を確立し、アプローチに解釈と正当性を加えます。また、異なるvarphi値に対する収束性を証明します。理論分析と実験結果を通じて、その選択に関する実践的なガイドラインを提供します。広範な実験結果は、UBAが、ResNetやOLMoなどのネットワークアーキテクチャやスケールにわたる、異なるトレーニングイテレーション予算下での多様な視覚および言語タスクにおいて、一般的に使用されるスケジュールを一貫して上回ることを示しています。
English
The expanding computational costs and limited resources underscore the
critical need for budgeted-iteration training, which aims to achieve optimal
learning within predetermined iteration budgets.While learning rate schedules
fundamentally govern the performance of different networks and tasks,
particularly in budgeted-iteration scenarios, their design remains largely
heuristic, lacking theoretical foundations.In addition, the optimal learning
rate schedule requires extensive trial-and-error selection, making the training
process inefficient.In this work, we propose the Unified Budget-Aware (UBA)
schedule, a theoretically grounded learning rate schedule that consistently
outperforms commonly-used schedules among diverse architectures and tasks under
different constrained training budgets.First, we bridge the gap by constructing
a novel training budget-aware optimization framework, which explicitly accounts
for the robustness to landscape curvature variations.From this framework, we
derive the UBA schedule, controlled by a single hyper-parameter varphi that
provides a trade-off between flexibility and simplicity, eliminating the need
for per-network numerical optimization. Moreover, we establish a theoretical
connection between varphi and the condition number, adding interpretation
and justification to our approach. Besides, we prove the convergence for
different values of varphi.We offer practical guidelines for its selection
via theoretical analysis and empirical results.xtensive experimental results
show that UBA consistently surpasses the commonly-used schedules
across diverse vision and language tasks, spanning network architectures (e.g.,
ResNet, OLMo) and scales, under different training-iteration budgets.