SmolTulu: Höhere Verhältnisse von Lernrate zu Batch-Größe können zu besserem Schlussfolgern in SLMs führen.
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
December 11, 2024
Autoren: Sultan Alrashed
cs.AI
Zusammenfassung
Wir präsentieren SmolTulu-1.7b-Instruct, in diesem Bericht als SmolTulu-DPO-1130 bezeichnet, ein anweisungsgesteuertes Sprachmodell, das die Post-Training-Pipeline von AllenAI's Tulu 3 anpasst, um das Basismodell Huggingface's SmolLM2-1.7B zu verbessern. Durch umfassende empirische Analysen unter Verwendung eines 135-Millionen-Parameter-Modells zeigen wir, dass das Verhältnis zwischen Lernrate und Batch-Größe die Modellleistung in einer aufgabenabhängigen Weise signifikant beeinflusst. Unsere Ergebnisse zeigen eine klare Aufteilung: Aufgaben des logischen Denkens wie ARC und GSM8K profitieren von höheren Verhältnissen von Lernrate zu Batch-Größe, während Aufgaben der Mustererkennung wie HellaSwag und IFEval optimale Leistungen bei niedrigeren Verhältnissen zeigen. Diese Erkenntnisse führten zur Entwicklung von SmolTulu, das Spitzenleistungen unter den Modellen mit weniger als 2 Milliarden Parametern bei der Befolgung von Anweisungen erzielt, mit 67,7 % bei IFEval (Delta11 %) und mathematischem Denken mit 51,6 % bei GSM8K (Delta3,4 %), wobei eine alternative Version 57,1 % bei ARC erzielt (Delta5,4 %). Wir veröffentlichen unser Modell, Trainingsrezepte und Ablationsstudien, um weitere Forschung in der effizienten Modellausrichtung zu erleichtern, und zeigen, dass eine sorgfältige Anpassung der Optimierungsdynamik dazu beitragen kann, die Leistungslücke zwischen kleinen und großen Sprachmodellen zu überbrücken.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as
SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's
Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model.
Through comprehensive empirical analysis using a 135M parameter model, we
demonstrate that the relationship between learning rate and batch size
significantly impacts model performance in a task-dependent manner. Our
findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from
higher learning rate to batch size ratios, while pattern recognition tasks such
as HellaSwag and IFEval show optimal performance with lower ratios. These
insights informed the development of SmolTulu, which achieves state-of-the-art
performance among sub-2B parameter models on instruction following, scoring
67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K
(Delta3.4%), with an alternate version achieving scoring 57.1% on ARC
(Delta5.4%). We release our model, training recipes, and ablation studies to
facilitate further research in efficient model alignment, demonstrating that
careful adaptation of optimization dynamics can help bridge the capability gap
between small and large language models.Summary
AI-Generated Summary