AceReason-Nemotron 1.1: SFT와 RL 시너지를 통한 수학 및 코드 추론의 발전
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
June 16, 2025
저자: Zihan Liu, Zhuolin Yang, Yang Chen, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
초록
본 연구에서는 강력한 추론 모델을 개발하기 위해 지도 미세 조정(SFT)과 강화 학습(RL) 간의 시너지를 탐구합니다. 먼저, 두 가지 확장 전략을 통해 SFT 학습 데이터를 구성했습니다: 수집된 프롬프트의 수를 늘리고, 각 프롬프트당 생성된 응답의 수를 늘리는 방식입니다. 두 접근 방식 모두 추론 성능에서 뚜렷한 개선을 보였으며, 특히 프롬프트 수를 확장하는 것이 더 큰 성과를 거두었습니다. 이후 SFT와 RL 간의 시너지에 대해 다음과 같은 질문을 탐구했습니다: (i) 더 강력한 SFT 모델이 대규모 RL 학습 후에도 일관되게 더 나은 최종 성능을 보이는가? (ii) 주어진 SFT 초기화에 대해 탐색과 활용 사이의 균형을 효과적으로 유지하기 위해 RL 학습 중 적절한 샘플링 온도를 어떻게 결정할 수 있는가? 연구 결과, (i)는 특히 샘플링 온도가 탐색과 활용 사이의 균형을 잘 유지하도록 온도 조정 엔트로피를 약 0.3으로 설정할 때 효과적인 RL 학습이 수행된다면 성립함을 확인했습니다. 주목할 만한 점은, RL 과정을 통해 초기 SFT 모델 간의 성능 격차가 크게 좁혀진다는 것입니다. 강력한 SFT 기반과 SFT와 RL 간의 시너지적 상호작용에 대한 통찰을 활용하여, 우리의 AceReason-Nemotron-1.1 7B 모델은 AceReason-Nemotron-1.0을 크게 능가하며 Qwen2.5-7B 기반 추론 모델 중에서도 수학 및 코드 벤치마크에서 새로운 최첨단 성능을 달성함으로써 사후 학습 레시피의 효과를 입증했습니다. 모델과 데이터는 다음 링크에서 공개합니다: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
English
In this work, we investigate the synergy between supervised fine-tuning (SFT)
and reinforcement learning (RL) in developing strong reasoning models. We begin
by curating the SFT training data through two scaling strategies: increasing
the number of collected prompts and the number of generated responses per
prompt. Both approaches yield notable improvements in reasoning performance,
with scaling the number of prompts resulting in more substantial gains. We then
explore the following questions regarding the synergy between SFT and RL: (i)
Does a stronger SFT model consistently lead to better final performance after
large-scale RL training? (ii) How can we determine an appropriate sampling
temperature during RL training to effectively balance exploration and
exploitation for a given SFT initialization? Our findings suggest that (i)
holds true, provided effective RL training is conducted, particularly when the
sampling temperature is carefully chosen to maintain the temperature-adjusted
entropy around 0.3, a setting that strikes a good balance between exploration
and exploitation. Notably, the performance gap between initial SFT models
narrows significantly throughout the RL process. Leveraging a strong SFT
foundation and insights into the synergistic interplay between SFT and RL, our
AceReason-Nemotron-1.1 7B model significantly outperforms
AceReason-Nemotron-1.0 and achieves new state-of-the-art performance among
Qwen2.5-7B-based reasoning models on challenging math and code benchmarks,
thereby demonstrating the effectiveness of our post-training recipe. We release
the model and data at: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B