ChatPaper.aiChatPaper

SmolTulu: Hogere verhoudingen tussen leersnelheid en batchgrootte kunnen leiden tot betere redenering in SLM's.

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

December 11, 2024
Auteurs: Sultan Alrashed
cs.AI

Samenvatting

We presenteren SmolTulu-1.7b-Instruct, in dit rapport aangeduid als SmolTulu-DPO-1130, een instructie-afgestemd taalmodel dat de post-training pipeline van AllenAI's Tulu 3 aanpast om het basismodel van Huggingface's SmolLM2-1.7B te verbeteren. Door uitgebreide empirische analyse met een model van 135 miljoen parameters tonen we aan dat de relatie tussen leersnelheid en batchgrootte op een taakafhankelijke manier aanzienlijke invloed heeft op de modelprestaties. Onze bevindingen onthullen een duidelijke scheiding: redeneertaken zoals ARC en GSM8K profiteren van hogere verhoudingen tussen leersnelheid en batchgrootte, terwijl patroonherkenningstaken zoals HellaSwag en IFEval optimale prestaties laten zien met lagere verhoudingen. Deze inzichten hebben geleid tot de ontwikkeling van SmolTulu, die toonaangevende prestaties behaalt bij modellen met minder dan 2 miljard parameters op instructievolging, met 67.7% op IFEval (Delta11%), en wiskundig redeneren met 51.6% op GSM8K (Delta3.4%), waarbij een alternatieve versie 57.1% op ARC scoort (Delta5.4%). We stellen ons model, trainingsrecepten en ablatiestudies beschikbaar om verder onderzoek naar efficiënte modeluitlijning te vergemakkelijken, waarbij wordt aangetoond dat zorgvuldige aanpassing van optimalisatiedynamiek kan helpen bij het overbruggen van het capaciteitsverschil tussen kleine en grote taalmodellen.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.
PDF42December 16, 2024