ChatPaper.aiChatPaper

ステップサイズの統一化:予算制約付き反復訓練のための統一学習率スケジュール

Stepsize anything: A unified learning rate schedule for budgeted-iteration training

May 30, 2025
著者: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI

要旨

計算コストの拡大と限られたリソースは、所定のイテレーション予算内で最適な学習を達成することを目指す、予算制約付きイテレーショントレーニングの重要性を強調しています。学習率スケジュールは、特に予算制約付きシナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に支配しますが、その設計は依然としてヒューリスティックで、理論的基盤を欠いています。さらに、最適な学習率スケジュールは、広範な試行錯誤を必要とし、トレーニングプロセスを非効率にします。本研究では、理論的に裏付けられた学習率スケジュールであるUnified Budget-Aware (UBA)スケジュールを提案します。このスケジュールは、異なる制約付きトレーニング予算下で、多様なアーキテクチャやタスクにおいて、一般的に使用されるスケジュールを一貫して上回ります。まず、ランドスケープの曲率変動に対するロバスト性を明示的に考慮する、新しいトレーニング予算対応最適化フレームワークを構築することで、このギャップを埋めます。このフレームワークから、柔軟性と簡潔さのトレードオフを提供する単一のハイパーパラメータvarphiによって制御されるUBAスケジュールを導出し、ネットワークごとの数値最適化の必要性を排除します。さらに、varphiと条件数との間に理論的な関連性を確立し、アプローチに解釈と正当性を加えます。また、異なるvarphi値に対する収束性を証明します。理論分析と実験結果を通じて、その選択に関する実践的なガイドラインを提供します。広範な実験結果は、UBAが、ResNetやOLMoなどのネットワークアーキテクチャやスケールにわたる、異なるトレーニングイテレーション予算下での多様な視覚および言語タスクにおいて、一般的に使用されるスケジュールを一貫して上回ることを示しています。
English
The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of varphi.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
PDF52June 3, 2025