SmolTulu: Proporções mais altas de Taxa de Aprendizado para Tamanho do Lote Podem Resultar em Melhor Raciocínio em SLMs

Resumo

Apresentamos o SmolTulu-1.7b-Instruct, referido neste relatório como SmolTulu-DPO-1130, um modelo de linguagem ajustado para instruções que adapta o pipeline de pós-treinamento Tulu 3 da AllenAI para aprimorar o modelo base SmolLM2-1.7B da Huggingface. Através de uma análise empírica abrangente usando um modelo de 135 milhões de parâmetros, demonstramos que a relação entre a taxa de aprendizado e o tamanho do lote impacta significativamente o desempenho do modelo de maneira dependente da tarefa. Nossas descobertas revelam uma clara divisão: tarefas de raciocínio como ARC e GSM8K se beneficiam de maiores razões entre taxa de aprendizado e tamanho do lote, enquanto tarefas de reconhecimento de padrões como HellaSwag e IFEval mostram desempenho ótimo com razões menores. Esses insights informaram o desenvolvimento do SmolTulu, que alcança desempenho de ponta entre modelos com menos de 2B de parâmetros em seguir instruções, marcando 67,7% no IFEval (Delta11%), e raciocínio matemático com 51,6% no GSM8K (Delta3,4%), com uma versão alternativa alcançando 57,1% no ARC (Delta5,4%). Disponibilizamos nosso modelo, receitas de treinamento e estudos de ablação para facilitar pesquisas adicionais em alinhamento eficiente de modelos, demonstrando que a adaptação cuidadosa da dinâmica de otimização pode ajudar a reduzir a lacuna de capacidade entre modelos de linguagem pequenos e grandes.

English

We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.

SmolTulu: Proporções mais altas de Taxa de Aprendizado para Tamanho do Lote Podem Resultar em Melhor Raciocínio em SLMs

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

Resumo

Support