R1 유사 추론 모델의 도출 및 개선에 관한 실증적 연구
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
March 6, 2025
저자: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI
초록
본 보고서에서는 STILL 프로젝트의 일환으로 진행된 '느린 사고 모델' 개발에 관한 세 번째 기술 보고서를 소개합니다. 기술적 접근 방식이 더욱 명확해짐에 따라, 강화학습(RL) 훈련의 확장이 이러한 추론 모델 구현을 위한 핵심 기술로 자리 잡았습니다. 우리는 RL 훈련에 영향을 미치는 다양한 요인들을 체계적으로 실험하고 그 효과를 문서화하며, 기본 모델과 미세 조정된 모델 모두에 대해 실험을 수행했습니다. 특히, 우리의 RL 훈련 접근법이 Qwen2.5-32B 기본 모델을 지속적으로 개선하여 응답 길이와 테스트 정확도를 모두 향상시킨다는 것을 입증했습니다. 또한, DeepSeek-R1-Distill-Qwen-1.5B와 같이 이미 높은 성능을 달성한 모델도 RL 훈련을 통해 추가로 개선될 수 있으며, AIME 2024에서 39.33%의 정확도를 달성할 수 있음을 보여주었습니다. RL 훈련 외에도, 도구 조작의 사용을 탐구한 결과, 이 방법이 대규모 추론 모델의 추론 성능을 크게 향상시킨다는 것을 발견했습니다. 이 접근법은 AIME 2024에서 탐욕적 탐색(greedy search)을 통해 86.67%라는 놀라운 정확도를 달성하며, 모델 능력 향상에서의 효과를 입증했습니다. 우리는 이와 관련된 리소스를 STILL 프로젝트 웹사이트(https://github.com/RUCAIBox/Slow_Thinking_with_LLMs)에서 공개합니다.
English
In this report, we present the third technical report on the development of
slow-thinking models as part of the STILL project. As the technical pathway
becomes clearer, scaling RL training has become a central technique for
implementing such reasoning models. We systematically experiment with and
document the effects of various factors influencing RL training, conducting
experiments on both base models and fine-tuned models. Specifically, we
demonstrate that our RL training approach consistently improves the Qwen2.5-32B
base models, enhancing both response length and test accuracy. Furthermore, we
show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already
achieved a high performance level, it can be further refined through RL
training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we
also explore the use of tool manipulation, finding that it significantly boosts
the reasoning performance of large reasoning models. This approach achieves a
remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its
effectiveness in enhancing model capabilities. We release our resources at the
STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary