SmolTulu: Более высокие соотношения скорости обучения к размеру пакета могут привести к лучшему рассуждению в моделях языкового моделирования.
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
December 11, 2024
Авторы: Sultan Alrashed
cs.AI
Аннотация
Мы представляем SmolTulu-1.7b-Instruct, упомянутую в данном отчете как SmolTulu-DPO-1130, модель языка, настроенную на инструкции, которая адаптирует пост-тренировочный конвейер Tulu 3 от AllenAI для улучшения базовой модели SmolLM2-1.7B от Huggingface. Через комплексный эмпирический анализ с использованием модели с 135 миллионами параметров мы демонстрируем, что взаимосвязь между скоростью обучения и размером пакета значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи рассуждения, такие как ARC и GSM8K, получают выгоду от более высоких отношений скорости обучения к размеру пакета, в то время как задачи распознавания образцов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими отношениями. Эти умозаключения послужили основой для разработки SmolTulu, которая достигает передовой производительности среди моделей с количеством параметров менее 2 миллиардов в задаче следования инструкциям, набирая 67.7% на IFEval (Delta11%), и математического рассуждения с 51.6% на GSM8K (Delta3.4%), альтернативная версия достигает 57.1% на ARC (Delta5.4%). Мы предоставляем нашу модель, рецепты обучения и исследования абляции для содействия дальнейшим исследованиям в области эффективного выравнивания модели, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и большими языковыми моделями.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as
SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's
Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model.
Through comprehensive empirical analysis using a 135M parameter model, we
demonstrate that the relationship between learning rate and batch size
significantly impacts model performance in a task-dependent manner. Our
findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from
higher learning rate to batch size ratios, while pattern recognition tasks such
as HellaSwag and IFEval show optimal performance with lower ratios. These
insights informed the development of SmolTulu, which achieves state-of-the-art
performance among sub-2B parameter models on instruction following, scoring
67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K
(Delta3.4%), with an alternate version achieving scoring 57.1% on ARC
(Delta5.4%). We release our model, training recipes, and ablation studies to
facilitate further research in efficient model alignment, demonstrating that
careful adaptation of optimization dynamics can help bridge the capability gap
between small and large language models.