ChatPaper.aiChatPaper

SmolTulu: Proporciones más altas de tasa de aprendizaje a tamaño de lote pueden llevar a un mejor razonamiento en SLMs

SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

December 11, 2024
Autores: Sultan Alrashed
cs.AI

Resumen

Presentamos SmolTulu-1.7b-Instruct, referido en este informe como SmolTulu-DPO-1130, un modelo de lenguaje ajustado a instrucciones que adapta el pipeline de post-entrenamiento Tulu 3 de AllenAI para mejorar el modelo base SmolLM2-1.7B de Huggingface. A través de un análisis empírico exhaustivo utilizando un modelo de 135 millones de parámetros, demostramos que la relación entre la tasa de aprendizaje y el tamaño del lote impacta significativamente en el rendimiento del modelo de manera dependiente de la tarea. Nuestros hallazgos revelan una clara división: las tareas de razonamiento como ARC y GSM8K se benefician de relaciones más altas entre la tasa de aprendizaje y el tamaño del lote, mientras que tareas de reconocimiento de patrones como HellaSwag e IFEval muestran un rendimiento óptimo con relaciones más bajas. Estas percepciones informaron el desarrollo de SmolTulu, que logra un rendimiento de vanguardia entre los modelos de menos de 2 mil millones de parámetros en el seguimiento de instrucciones, obteniendo un 67.7% en IFEval (Delta11%), y en razonamiento matemático con un 51.6% en GSM8K (Delta3.4%), con una versión alternativa logrando un 57.1% en ARC (Delta5.4%). Publicamos nuestro modelo, recetas de entrenamiento y estudios de ablación para facilitar investigaciones adicionales en la alineación eficiente de modelos, demostrando que la adaptación cuidadosa de la dinámica de optimización puede ayudar a cerrar la brecha de capacidad entre modelos de lenguaje pequeños y grandes.
English
We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K (Delta3.4%), with an alternate version achieving scoring 57.1% on ARC (Delta5.4%). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.

Summary

AI-Generated Summary

PDF42December 16, 2024