Um Estudo Empírico sobre a Elicitação e Melhoria de Modelos de Raciocínio Semelhantes ao R1
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
March 6, 2025
Autores: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI
Resumo
Neste relatório, apresentamos o terceiro relatório técnico sobre o desenvolvimento de modelos de pensamento lento como parte do projeto STILL. À medida que o caminho técnico se torna mais claro, a escalabilidade do treinamento de RL (Reinforcement Learning) emergiu como uma técnica central para a implementação desses modelos de raciocínio. Realizamos experimentos sistemáticos e documentamos os efeitos de vários fatores que influenciam o treinamento de RL, conduzindo testes tanto em modelos base quanto em modelos ajustados. Especificamente, demonstramos que nossa abordagem de treinamento de RL melhora consistentemente os modelos base Qwen2.5-32B, aumentando tanto o comprimento das respostas quanto a precisão nos testes. Além disso, mostramos que mesmo quando um modelo como o DeepSeek-R1-Distill-Qwen-1.5B já atingiu um alto nível de desempenho, ele pode ser ainda mais refinado por meio do treinamento de RL, alcançando uma precisão de 39,33% no AIME 2024. Além do treinamento de RL, também exploramos o uso de manipulação de ferramentas, descobrindo que isso impulsiona significativamente o desempenho de raciocínio de modelos grandes de raciocínio. Essa abordagem alcança uma precisão notável de 86,67% com busca gananciosa no AIME 2024, destacando sua eficácia no aprimoramento das capacidades dos modelos. Disponibilizamos nossos recursos no site do projeto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In this report, we present the third technical report on the development of
slow-thinking models as part of the STILL project. As the technical pathway
becomes clearer, scaling RL training has become a central technique for
implementing such reasoning models. We systematically experiment with and
document the effects of various factors influencing RL training, conducting
experiments on both base models and fine-tuned models. Specifically, we
demonstrate that our RL training approach consistently improves the Qwen2.5-32B
base models, enhancing both response length and test accuracy. Furthermore, we
show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already
achieved a high performance level, it can be further refined through RL
training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we
also explore the use of tool manipulation, finding that it significantly boosts
the reasoning performance of large reasoning models. This approach achieves a
remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its
effectiveness in enhancing model capabilities. We release our resources at the
STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary