SmolTulu: Höhere Verhältnisse von Lernrate zu Batch-Größe können zu besserem Schlussfolgern in SLMs führen.

papers.abstract

Wir präsentieren SmolTulu-1.7b-Instruct, in diesem Bericht als SmolTulu-DPO-1130 bezeichnet, ein anweisungsgesteuertes Sprachmodell, das die Post-Training-Pipeline von AllenAI's Tulu 3 anpasst, um das Basismodell Huggingface's SmolLM2-1.7B zu verbessern. Durch umfassende empirische Analysen unter Verwendung eines 135-Millionen-Parameter-Modells zeigen wir, dass das Verhältnis zwischen Lernrate und Batch-Größe die Modellleistung in einer aufgabenabhängigen Weise signifikant beeinflusst. Unsere Ergebnisse zeigen eine klare Aufteilung: Aufgaben des logischen Denkens wie ARC und GSM8K profitieren von höheren Verhältnissen von Lernrate zu Batch-Größe, während Aufgaben der Mustererkennung wie HellaSwag und IFEval optimale Leistungen bei niedrigeren Verhältnissen zeigen. Diese Erkenntnisse führten zur Entwicklung von SmolTulu, das Spitzenleistungen unter den Modellen mit weniger als 2 Milliarden Parametern bei der Befolgung von Anweisungen erzielt, mit 67,7 % bei IFEval (Delta11 %) und mathematischem Denken mit 51,6 % bei GSM8K (Delta3,4 %), wobei eine alternative Version 57,1 % bei ARC erzielt (Delta5,4 %). Wir veröffentlichen unser Modell, Trainingsrezepte und Ablationsstudien, um weitere Forschung in der effizienten Modellausrichtung zu erleichtern, und zeigen, dass eine sorgfältige Anpassung der Optimierungsdynamik dazu beitragen kann, die Leistungslücke zwischen kleinen und großen Sprachmodellen zu überbrücken.

English

We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.

SmolTulu: Höhere Verhältnisse von Lernrate zu Batch-Größe können zu besserem Schlussfolgern in SLMs führen.

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

papers.abstract

Support