Un Estudio Técnico sobre Modelos de Lenguaje de Razonamiento Pequeños
A Technical Study into Small Reasoning Language Models
June 16, 2025
Autores: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI
Resumen
La evolución continua de los modelos de lenguaje ha llevado al desarrollo de arquitecturas a gran escala que demuestran un rendimiento excepcional en una amplia gama de tareas. Sin embargo, estos modelos conllevan demandas computacionales y energéticas significativas, así como posibles implicaciones en la privacidad. En este contexto, los Modelos de Lenguaje de Razonamiento Pequeño (SRLMs, por sus siglas en inglés) con aproximadamente 500 millones de parámetros presentan una alternativa convincente debido a su notable eficiencia computacional y rentabilidad, especialmente en entornos con recursos limitados. A pesar de estas ventajas, la capacidad limitada de los modelos de 500 millones de parámetros plantea desafíos en el manejo de tareas complejas, como el razonamiento matemático y la generación de código. Esta investigación explora diversas estrategias de entrenamiento, incluido el ajuste fino supervisado (SFT), la destilación de conocimiento (KD) y el aprendizaje por refuerzo (RL), así como sus implementaciones híbridas, para mejorar el rendimiento de los SRLMs de 500 millones de parámetros. Analizamos metodologías efectivas para reducir la brecha de rendimiento entre los SRLMs y los modelos más grandes y presentamos ideas sobre las canalizaciones de entrenamiento óptimas adaptadas a estas arquitecturas más pequeñas. A través de una extensa validación y análisis experimental, nuestro trabajo tiene como objetivo proporcionar recomendaciones prácticas para maximizar las capacidades de razonamiento de los modelos de 500 millones de parámetros.
English
The ongoing evolution of language models has led to the development of
large-scale architectures that demonstrate exceptional performance across a
wide range of tasks. However, these models come with significant computational
and energy demands, as well as potential privacy implications. In this context,
Small Reasoning Language Models (SRLMs) with approximately 0.5 billion
parameters present a compelling alternative due to their remarkable
computational efficiency and cost effectiveness, particularly in
resource-constrained environments. Despite these advantages, the limited
capacity of 0.5 billion parameter models poses challenges in handling complex
tasks such as mathematical reasoning and code generation. This research
investigates various training strategies, including supervised fine-tuning
(SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as
their hybrid implementations, to enhance the performance of 0.5B SRLMs. We
analyze effective methodologies to bridge the performance gap between SRLMS and
larger models and present insights into optimal training pipelines tailored for
these smaller architectures. Through extensive experimental validation and
analysis, our work aims to provide actionable recommendations for maximizing
the reasoning capabilities of 0.5B models.