ChatPaper.aiChatPaper

Stepsize alles: Een uniform leerschema voor training met beperkt aantal iteraties

Stepsize anything: A unified learning rate schedule for budgeted-iteration training

May 30, 2025
Auteurs: Anda Tang, Yiming Dong, Yutao Zeng, zhou Xun, Zhouchen Lin
cs.AI

Samenvatting

De toenemende rekenkosten en beperkte middelen benadrukken de kritische noodzaak voor training met een vooraf bepaald aantal iteraties, die gericht is op optimaal leren binnen vooraf vastgestelde iteratiebudgetten. Hoewel leercurveschema's fundamenteel de prestaties van verschillende netwerken en taken bepalen, met name in scenario's met een beperkt aantal iteraties, blijft hun ontwerp grotendeels heuristisch en ontbreekt het aan theoretische onderbouwing. Bovendien vereist het optimale leercurveschema uitgebreide trial-and-error selectie, wat het trainingsproces inefficiënt maakt. In dit werk stellen we het Unified Budget-Aware (UBA) schema voor, een theoretisch onderbouwd leercurveschema dat consistent beter presteert dan veelgebruikte schema's bij diverse architecturen en taken onder verschillende beperkte trainingsbudgetten. Eerst overbruggen we de kloof door een nieuw trainingsbudgetbewust optimalisatiekader te construeren, dat expliciet rekening houdt met de robuustheid tegen variaties in landschapskromming. Uit dit kader leiden we het UBA-schema af, dat wordt gecontroleerd door een enkele hyperparameter varphi die een afweging biedt tussen flexibiliteit en eenvoud, waardoor per-netwerk numerieke optimalisatie overbodig wordt. Bovendien leggen we een theoretisch verband tussen varphi en het conditiegetal, wat interpretatie en rechtvaardiging toevoegt aan onze aanpak. Daarnaast bewijzen we de convergentie voor verschillende waarden van varphi. We bieden praktische richtlijnen voor de selectie ervan via theoretische analyse en empirische resultaten. Uitgebreide experimentele resultaten tonen aan dat UBA consistent beter presteert dan de veelgebruikte schema's bij diverse visuele en taaltaken, over verschillende netwerkarchitecturen (bijv. ResNet, OLMo) en schalen, onder verschillende trainingsiteratiebudgetten.
English
The expanding computational costs and limited resources underscore the critical need for budgeted-iteration training, which aims to achieve optimal learning within predetermined iteration budgets.While learning rate schedules fundamentally govern the performance of different networks and tasks, particularly in budgeted-iteration scenarios, their design remains largely heuristic, lacking theoretical foundations.In addition, the optimal learning rate schedule requires extensive trial-and-error selection, making the training process inefficient.In this work, we propose the Unified Budget-Aware (UBA) schedule, a theoretically grounded learning rate schedule that consistently outperforms commonly-used schedules among diverse architectures and tasks under different constrained training budgets.First, we bridge the gap by constructing a novel training budget-aware optimization framework, which explicitly accounts for the robustness to landscape curvature variations.From this framework, we derive the UBA schedule, controlled by a single hyper-parameter varphi that provides a trade-off between flexibility and simplicity, eliminating the need for per-network numerical optimization. Moreover, we establish a theoretical connection between varphi and the condition number, adding interpretation and justification to our approach. Besides, we prove the convergence for different values of varphi.We offer practical guidelines for its selection via theoretical analysis and empirical results.xtensive experimental results show that UBA consistently surpasses the commonly-used schedules across diverse vision and language tasks, spanning network architectures (e.g., ResNet, OLMo) and scales, under different training-iteration budgets.
PDF52June 3, 2025