ChatPaper.aiChatPaper

스텝사이즈 애니띵: 예산 제한 반복 학습을 위한 통합 학습률 스케줄

Stepsize anything: A unified learning rate schedule for budgeted-iteration training

May 30, 2025
저자: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI

초록

계산 비용의 증가와 제한된 자원은 미리 정해진 반복 횟수 예산 내에서 최적의 학습을 달성하고자 하는 예산 제한 반복 학습의 중요성을 강조합니다. 학습률 스케줄은 특히 예산 제한 반복 시나리오에서 다양한 네트워크와 작업의 성능을 근본적으로 좌우하지만, 그 설계는 여전히 경험적이며 이론적 기반이 부족합니다. 또한, 최적의 학습률 스케줄은 광범위한 시행착오를 통해 선택해야 하므로 학습 과정이 비효율적입니다. 본 연구에서는 다양한 아키텍처와 작업에서 제한된 학습 예산 하에서 일반적으로 사용되는 스케줄을 일관되게 능가하는 이론적 근거를 가진 통합 예산 인식(UBA) 스케줄을 제안합니다. 먼저, 우리는 풍경 곡률 변화에 대한 강건성을 명시적으로 고려하는 새로운 학습 예산 인식 최적화 프레임워크를 구축하여 이 간극을 메웁니다. 이 프레임워크에서 우리는 유연성과 단순성 사이의 균형을 제공하는 단일 하이퍼파라미터 varphi에 의해 제어되는 UBA 스케줄을 도출하며, 이는 네트워크별 수치 최적화의 필요성을 없앱니다. 더 나아가, 우리는 varphi와 조건수 사이의 이론적 연결을 확립하여 우리의 접근 방식에 대한 해석과 정당성을 부여합니다. 또한, 우리는 다양한 varphi 값에 대한 수렴성을 증명하고, 이론적 분석과 실험 결과를 통해 이를 선택하기 위한 실용적인 지침을 제공합니다. 광범위한 실험 결과는 UBA가 다양한 비전 및 언어 작업에서, ResNet, OLMo와 같은 네트워크 아키텍처와 규모에 걸쳐, 다양한 학습 반복 예산 하에서 일반적으로 사용되는 스케줄을 일관되게 능가함을 보여줍니다.
English
The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of varphi.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
PDF52June 3, 2025