ChatPaper.aiChatPaper

Um Estudo Técnico sobre Modelos de Linguagem de Raciocínio em Pequena Escala

A Technical Study into Small Reasoning Language Models

June 16, 2025
Autores: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI

Resumo

A evolução contínua dos modelos de linguagem levou ao desenvolvimento de arquiteturas em grande escala que demonstram desempenho excepcional em uma ampla gama de tarefas. No entanto, esses modelos vêm com demandas computacionais e energéticas significativas, além de potenciais implicações de privacidade. Nesse contexto, os Small Reasoning Language Models (SRLMs) com aproximadamente 0,5 bilhão de parâmetros apresentam uma alternativa atraente devido à sua notável eficiência computacional e custo-benefício, especialmente em ambientes com recursos limitados. Apesar dessas vantagens, a capacidade limitada dos modelos de 0,5 bilhão de parâmetros apresenta desafios no tratamento de tarefas complexas, como raciocínio matemático e geração de código. Esta pesquisa investiga várias estratégias de treinamento, incluindo fine-tuning supervisionado (SFT), destilação de conhecimento (KD) e aprendizado por reforço (RL), bem como suas implementações híbridas, para aprimorar o desempenho dos SRLMs de 0,5B. Analisamos metodologias eficazes para reduzir a lacuna de desempenho entre os SRLMs e modelos maiores e apresentamos insights sobre pipelines de treinamento otimizados para essas arquiteturas menores. Por meio de validação e análise experimental extensiva, nosso trabalho visa fornecer recomendações práticas para maximizar as capacidades de raciocínio dos modelos de 0,5B.
English
The ongoing evolution of language models has led to the development of large-scale architectures that demonstrate exceptional performance across a wide range of tasks. However, these models come with significant computational and energy demands, as well as potential privacy implications. In this context, Small Reasoning Language Models (SRLMs) with approximately 0.5 billion parameters present a compelling alternative due to their remarkable computational efficiency and cost effectiveness, particularly in resource-constrained environments. Despite these advantages, the limited capacity of 0.5 billion parameter models poses challenges in handling complex tasks such as mathematical reasoning and code generation. This research investigates various training strategies, including supervised fine-tuning (SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as their hybrid implementations, to enhance the performance of 0.5B SRLMs. We analyze effective methodologies to bridge the performance gap between SRLMS and larger models and present insights into optimal training pipelines tailored for these smaller architectures. Through extensive experimental validation and analysis, our work aims to provide actionable recommendations for maximizing the reasoning capabilities of 0.5B models.
PDF94June 17, 2025