ChatPaper.aiChatPaper

SmolTulu : Des rapports taux d'apprentissage sur taille de lot plus élevés peuvent conduire à une meilleure capacité de raisonnement dans les SLM.

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

December 11, 2024
Auteurs: Sultan Alrashed
cs.AI

Résumé

Nous présentons SmolTulu-1.7b-Instruct, référencé dans ce rapport en tant que SmolTulu-DPO-1130, un modèle de langage ajusté aux instructions qui adapte le pipeline de post-entraînement Tulu 3 d'AllenAI pour améliorer le modèle de base SmolLM2-1.7B de Huggingface. À travers une analyse empirique approfondie en utilisant un modèle de 135 millions de paramètres, nous démontrons que la relation entre le taux d'apprentissage et la taille du lot impacte significativement les performances du modèle de manière dépendante de la tâche. Nos résultats révèlent une division claire : les tâches de raisonnement telles que ARC et GSM8K bénéficient de ratios plus élevés entre le taux d'apprentissage et la taille du lot, tandis que les tâches de reconnaissance de motifs comme HellaSwag et IFEval montrent des performances optimales avec des ratios plus bas. Ces observations ont guidé le développement de SmolTulu, qui atteint des performances de pointe parmi les modèles de moins de 2 milliards de paramètres en matière de suivi des instructions, avec un score de 67,7% sur IFEval (Delta11%), et en raisonnement mathématique avec 51,6% sur GSM8K (Delta3,4%), une version alternative obtenant un score de 57,1% sur ARC (Delta5,4%). Nous mettons à disposition notre modèle, nos recettes d'entraînement et nos études d'ablation pour faciliter de nouvelles recherches sur l'alignement efficace des modèles, démontrant qu'une adaptation minutieuse de la dynamique d'optimisation peut contribuer à combler l'écart de capacité entre les petits et grands modèles de langage.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.

Summary

AI-Generated Summary

PDF42December 16, 2024