SimpleRL-Zoo : Exploration et Maîtrise de l'Apprentissage par Renforcement Zéro pour les Modèles de Base Ouverts dans des Environnements Réels
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
March 24, 2025
Auteurs: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI
Résumé
DeepSeek-R1 a démontré que le raisonnement en chaîne de pensée (CoT) peut émerger naturellement à travers un cadre simple d'apprentissage par renforcement (RL) avec des récompenses basées sur des règles, où l'entraînement peut démarrer directement à partir des modèles de base - un paradigme appelé entraînement RL zéro. La plupart des efforts récents pour reproduire l'entraînement RL zéro se sont principalement concentrés sur la série de modèles Qwen2.5, qui pourrait ne pas être représentative, car nous constatons que les modèles de base présentent déjà de solides capacités de suivi d'instructions et d'auto-réflexion. Dans ce travail, nous étudions l'entraînement RL zéro sur 10 modèles de base divers, couvrant différentes familles et tailles, notamment LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, et tous les modèles Qwen2.5 de 0.5B à 32B. En exploitant plusieurs stratégies de conception clés - telles que l'ajustement de la récompense de format et le contrôle de la difficulté des requêtes - nous obtenons des améliorations substantielles à la fois en précision de raisonnement et en longueur de réponse dans la plupart des configurations. Cependant, en surveillant attentivement la dynamique de l'entraînement, nous observons que différents modèles de base présentent des schémas distincts pendant l'entraînement. Par exemple, l'augmentation de la longueur de la réponse ne corrèle pas toujours avec l'émergence de certains comportements cognitifs tels que la vérification (c'est-à-dire le "moment eurêka"). Notamment, nous observons le "moment eurêka" pour la première fois dans des petits modèles ne faisant pas partie de la famille Qwen. Nous partageons les conceptions clés qui permettent un entraînement RL zéro réussi, ainsi que nos découvertes et pratiques. Pour faciliter la recherche future, nous rendons open-source le code, les modèles et les outils d'analyse.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can
naturally emerge through a simple reinforcement learning (RL) framework with
rule-based rewards, where the training may directly start from the base
models-a paradigm referred to as zero RL training. Most recent efforts to
reproduce zero RL training have primarily focused on the Qwen2.5 model series,
which may not be representative as we find the base models already exhibit
strong instruction-following and self-reflection abilities. In this work, we
investigate zero RL training across 10 diverse base models, spanning different
families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B,
Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several
key design strategies-such as adjusting format reward and controlling query
difficulty-we achieve substantial improvements in both reasoning accuracy and
response length across most settings. However, by carefully monitoring the
training dynamics, we observe that different base models exhibit distinct
patterns during training. For instance, the increased response length does not
always correlate with the emergence of certain cognitive behaviors such as
verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for
the first time in small models not from the Qwen family. We share the key
designs that enable successful zero RL training, along with our findings and
practices. To facilitate further research, we open-source the code, models, and
analysis tools.Summary
AI-Generated Summary