SimpleRL-Zoo: 야생 환경에서의 오픈 베이스 모델을 위한 제로 강화 학습의 탐구와 제어
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
March 24, 2025
저자: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI
초록
DeepSeek-R1은 규칙 기반 보상을 사용한 간단한 강화 학습(RL) 프레임워크를 통해 긴 사고 사슬(CoT) 추론이 자연스럽게 나타날 수 있음을 보여주었으며, 이때 훈련은 기본 모델에서 직접 시작할 수 있습니다. 이를 제로 RL 훈련(Zero RL Training) 패러다임이라고 부릅니다. 최근 제로 RL 훈련을 재현하려는 대부분의 연구는 주로 Qwen2.5 모델 시리즈에 초점을 맞추고 있는데, 이는 대표적이지 않을 수 있습니다. 왜냐하면 우리는 기본 모델들이 이미 강력한 지시 따르기 및 자기 반성 능력을 보인다는 사실을 발견했기 때문입니다. 본 연구에서는 LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B 및 0.5B부터 32B까지의 모든 Qwen2.5 모델을 포함한 10가지 다양한 기본 모델에 걸쳐 제로 RL 훈련을 조사했습니다. 형식 보상 조정 및 질문 난이도 제어와 같은 몇 가지 핵심 설계 전략을 활용하여 대부분의 설정에서 추론 정확도와 응답 길이 모두에서 상당한 개선을 달성했습니다. 그러나 훈련 동역학을 주의 깊게 모니터링하면서, 서로 다른 기본 모델들이 훈련 중에 뚜렷한 패턴을 보인다는 사실을 관찰했습니다. 예를 들어, 응답 길이의 증가가 항상 검증(즉, "아하 순간")과 같은 특정 인지 행동의 출현과 상관관계를 가지지는 않았습니다. 특히, Qwen 계열이 아닌 소형 모델에서 처음으로 "아하 순간"을 관찰했습니다. 우리는 성공적인 제로 RL 훈련을 가능하게 한 핵심 설계와 함께 발견 사항 및 실천 방법을 공유합니다. 더 나아가 연구를 촉진하기 위해 코드, 모델 및 분석 도구를 오픈소스로 공개합니다.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can
naturally emerge through a simple reinforcement learning (RL) framework with
rule-based rewards, where the training may directly start from the base
models-a paradigm referred to as zero RL training. Most recent efforts to
reproduce zero RL training have primarily focused on the Qwen2.5 model series,
which may not be representative as we find the base models already exhibit
strong instruction-following and self-reflection abilities. In this work, we
investigate zero RL training across 10 diverse base models, spanning different
families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B,
Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several
key design strategies-such as adjusting format reward and controlling query
difficulty-we achieve substantial improvements in both reasoning accuracy and
response length across most settings. However, by carefully monitoring the
training dynamics, we observe that different base models exhibit distinct
patterns during training. For instance, the increased response length does not
always correlate with the emergence of certain cognitive behaviors such as
verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for
the first time in small models not from the Qwen family. We share the key
designs that enable successful zero RL training, along with our findings and
practices. To facilitate further research, we open-source the code, models, and
analysis tools.Summary
AI-Generated Summary