Aprendizado por Reforço para Raciocínio em LLMs Pequenos: O que Funciona e o que Não Funciona
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Autores: Quy-Anh Dang, Chris Ngo
cs.AI
Resumo
Melhorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) geralmente depende de recursos computacionais massivos e conjuntos de dados extensos, limitando a acessibilidade em ambientes com recursos restritos. Nosso estudo investiga o potencial do aprendizado por reforço (RL) para aprimorar o raciocínio em LLMs menores, com foco em um modelo de 1,5 bilhão de parâmetros, o DeepSeek-R1-Distill-Qwen-1.5B, sob restrições rigorosas: treinamento em 4 GPUs NVIDIA A40 (48 GB de VRAM cada) dentro de 24 horas. Adaptando o algoritmo Group Relative Policy Optimization (GRPO) e criando um conjunto de dados compacto e de alta qualidade para raciocínio matemático, conduzimos três experimentos para explorar o comportamento e o desempenho do modelo. Nossos resultados demonstram ganhos rápidos de raciocínio - por exemplo, a precisão no AMC23 aumentando de 63% para 80% e o AIME24 atingindo 46,7%, superando o o1-preview - utilizando apenas 7.000 amostras e um custo de treinamento de $42, em comparação com milhares de dólares para modelos de referência. No entanto, desafios como instabilidade de otimização e restrições de comprimento surgiram com o treinamento prolongado. Essas descobertas destacam a eficácia do ajuste fino baseado em RL para LLMs menores, oferecendo uma alternativa econômica às abordagens em grande escala. Disponibilizamos nosso código e conjuntos de dados como recursos de código aberto, fornecendo insights sobre compensações e estabelecendo uma base para LLMs escaláveis e capazes de raciocínio em ambientes com recursos limitados. Todos estão disponíveis em https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.Summary
AI-Generated Summary