ChatPaper.aiChatPaper

SmolTulu: Более высокие соотношения скорости обучения к размеру пакета могут привести к лучшему рассуждению в моделях языкового моделирования.

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

December 11, 2024
Авторы: Sultan Alrashed
cs.AI

Аннотация

Мы представляем SmolTulu-1.7b-Instruct, упомянутую в данном отчете как SmolTulu-DPO-1130, модель языка, настроенную на инструкции, которая адаптирует пост-тренировочный конвейер Tulu 3 от AllenAI для улучшения базовой модели SmolLM2-1.7B от Huggingface. Через комплексный эмпирический анализ с использованием модели с 135 миллионами параметров мы демонстрируем, что взаимосвязь между скоростью обучения и размером пакета значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи рассуждения, такие как ARC и GSM8K, получают выгоду от более высоких отношений скорости обучения к размеру пакета, в то время как задачи распознавания образцов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими отношениями. Эти умозаключения послужили основой для разработки SmolTulu, которая достигает передовой производительности среди моделей с количеством параметров менее 2 миллиардов в задаче следования инструкциям, набирая 67.7% на IFEval (Delta11%), и математического рассуждения с 51.6% на GSM8K (Delta3.4%), альтернативная версия достигает 57.1% на ARC (Delta5.4%). Мы предоставляем нашу модель, рецепты обучения и исследования абляции для содействия дальнейшим исследованиям в области эффективного выравнивания модели, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и большими языковыми моделями.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.
PDF42December 16, 2024