SimpleRL-Zoo: Onderzoek naar en temmen van Zero Reinforcement Learning voor open basis modellen in het wild
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
March 24, 2025
Auteurs: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI
Samenvatting
DeepSeek-R1 heeft aangetoond dat lange ketens van gedachtegangen (CoT) op natuurlijke wijze kunnen ontstaan door een eenvoudig reinforcement learning (RL) raamwerk met op regels gebaseerde beloningen, waarbij de training direct kan beginnen vanaf de basismodellen - een paradigma dat wordt aangeduid als zero RL training. De meeste recente inspanningen om zero RL training te reproduceren hebben zich voornamelijk gericht op de Qwen2.5 modelreeks, wat mogelijk niet representatief is omdat we ontdekken dat de basismodellen al sterke instructievolgende en zelfreflectievaardigheden vertonen. In dit werk onderzoeken we zero RL training over 10 diverse basismodellen, die verschillende families en groottes omvatten, waaronder LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, en alle Qwen2.5 modellen van 0.5B tot 32B. Door gebruik te maken van verschillende belangrijke ontwerpstrategieën - zoals het aanpassen van formaatbeloning en het beheersen van de moeilijkheidsgraad van queries - behalen we aanzienlijke verbeteringen in zowel de redeneernauwkeurigheid als de responslengte in de meeste instellingen. Echter, door de trainingsdynamiek zorgvuldig te monitoren, observeren we dat verschillende basismodellen tijdens de training verschillende patronen vertonen. Zo correleert de toegenomen responslengte niet altijd met het ontstaan van bepaalde cognitieve gedragingen zoals verificatie (d.w.z. het "aha-moment"). Opmerkelijk is dat we het "aha-moment" voor het eerst observeren in kleine modellen die niet tot de Qwen-familie behoren. We delen de belangrijkste ontwerpen die succesvolle zero RL training mogelijk maken, samen met onze bevindingen en praktijken. Om verder onderzoek te faciliteren, maken we de code, modellen en analysetools openbaar.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can
naturally emerge through a simple reinforcement learning (RL) framework with
rule-based rewards, where the training may directly start from the base
models-a paradigm referred to as zero RL training. Most recent efforts to
reproduce zero RL training have primarily focused on the Qwen2.5 model series,
which may not be representative as we find the base models already exhibit
strong instruction-following and self-reflection abilities. In this work, we
investigate zero RL training across 10 diverse base models, spanning different
families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B,
Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several
key design strategies-such as adjusting format reward and controlling query
difficulty-we achieve substantial improvements in both reasoning accuracy and
response length across most settings. However, by carefully monitoring the
training dynamics, we observe that different base models exhibit distinct
patterns during training. For instance, the increased response length does not
always correlate with the emergence of certain cognitive behaviors such as
verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for
the first time in small models not from the Qwen family. We share the key
designs that enable successful zero RL training, along with our findings and
practices. To facilitate further research, we open-source the code, models, and
analysis tools.Summary
AI-Generated Summary