SmolTulu: Proporções mais altas de Taxa de Aprendizado para Tamanho do Lote Podem Resultar em Melhor Raciocínio em SLMs
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
December 11, 2024
Autores: Sultan Alrashed
cs.AI
Resumo
Apresentamos o SmolTulu-1.7b-Instruct, referido neste relatório como SmolTulu-DPO-1130, um modelo de linguagem ajustado para instruções que adapta o pipeline de pós-treinamento Tulu 3 da AllenAI para aprimorar o modelo base SmolLM2-1.7B da Huggingface. Através de uma análise empírica abrangente usando um modelo de 135 milhões de parâmetros, demonstramos que a relação entre a taxa de aprendizado e o tamanho do lote impacta significativamente o desempenho do modelo de maneira dependente da tarefa. Nossas descobertas revelam uma clara divisão: tarefas de raciocínio como ARC e GSM8K se beneficiam de maiores razões entre taxa de aprendizado e tamanho do lote, enquanto tarefas de reconhecimento de padrões como HellaSwag e IFEval mostram desempenho ótimo com razões menores. Esses insights informaram o desenvolvimento do SmolTulu, que alcança desempenho de ponta entre modelos com menos de 2B de parâmetros em seguir instruções, marcando 67,7% no IFEval (Delta11%), e raciocínio matemático com 51,6% no GSM8K (Delta3,4%), com uma versão alternativa alcançando 57,1% no ARC (Delta5,4%). Disponibilizamos nosso modelo, receitas de treinamento e estudos de ablação para facilitar pesquisas adicionais em alinhamento eficiente de modelos, demonstrando que a adaptação cuidadosa da dinâmica de otimização pode ajudar a reduzir a lacuna de capacidade entre modelos de linguagem pequenos e grandes.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as
SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's
Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model.
Through comprehensive empirical analysis using a 135M parameter model, we
demonstrate that the relationship between learning rate and batch size
significantly impacts model performance in a task-dependent manner. Our
findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from
higher learning rate to batch size ratios, while pattern recognition tasks such
as HellaSwag and IFEval show optimal performance with lower ratios. These
insights informed the development of SmolTulu, which achieves state-of-the-art
performance among sub-2B parameter models on instruction following, scoring
67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K
(Delta3.4%), with an alternate version achieving scoring 57.1% on ARC
(Delta5.4%). We release our model, training recipes, and ablation studies to
facilitate further research in efficient model alignment, demonstrating that
careful adaptation of optimization dynamics can help bridge the capability gap
between small and large language models.Summary
AI-Generated Summary