ChatPaper.aiChatPaper

Passo a passo para tudo: Um cronograma unificado de taxa de aprendizado para treinamento com iterações orçamentadas

Stepsize anything: A unified learning rate schedule for budgeted-iteration training

May 30, 2025
Autores: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI

Resumo

Os crescentes custos computacionais e os recursos limitados destacam a necessidade crítica de treinamento com iterações orçamentadas, que visa alcançar o aprendizado ótimo dentro de orçamentos de iteração predeterminados. Embora os cronogramas de taxa de aprendizado governem fundamentalmente o desempenho de diferentes redes e tarefas, especialmente em cenários de iterações orçamentadas, seu projeto permanece amplamente heurístico, carecendo de fundamentos teóricos. Além disso, o cronograma ideal de taxa de aprendizado requer uma extensa seleção por tentativa e erro, tornando o processo de treinamento ineficiente. Neste trabalho, propomos o cronograma Unificado Consciente do Orçamento (UBA), um cronograma de taxa de aprendizado fundamentado teoricamente que consistentemente supera os cronogramas comumente usados em diversas arquiteturas e tarefas sob diferentes orçamentos de treinamento restritos. Primeiro, preenchemos a lacuna construindo uma nova estrutura de otimização consciente do orçamento de treinamento, que explicitamente leva em conta a robustez às variações de curvatura do cenário. A partir dessa estrutura, derivamos o cronograma UBA, controlado por um único hiperparâmetro varphi que oferece uma troca entre flexibilidade e simplicidade, eliminando a necessidade de otimização numérica por rede. Além disso, estabelecemos uma conexão teórica entre varphi e o número de condição, adicionando interpretação e justificativa à nossa abordagem. Adicionalmente, provamos a convergência para diferentes valores de varphi. Oferecemos diretrizes práticas para sua seleção por meio de análise teórica e resultados empíricos. Resultados experimentais extensivos mostram que o UBA consistentemente supera os cronogramas comumente usados em diversas tarefas de visão e linguagem, abrangendo arquiteturas de rede (por exemplo, ResNet, OLMo) e escalas, sob diferentes orçamentos de iteração de treinamento.
English
The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of varphi.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
PDF52June 3, 2025