ChatPaper.aiChatPaper

SimpleRL-Zoo : Exploration et Maîtrise de l'Apprentissage par Renforcement Zéro pour les Modèles de Base Ouverts dans des Environnements Réels

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

March 24, 2025
Auteurs: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI

Résumé

DeepSeek-R1 a démontré que le raisonnement en chaîne de pensée (CoT) peut émerger naturellement à travers un cadre simple d'apprentissage par renforcement (RL) avec des récompenses basées sur des règles, où l'entraînement peut démarrer directement à partir des modèles de base - un paradigme appelé entraînement RL zéro. La plupart des efforts récents pour reproduire l'entraînement RL zéro se sont principalement concentrés sur la série de modèles Qwen2.5, qui pourrait ne pas être représentative, car nous constatons que les modèles de base présentent déjà de solides capacités de suivi d'instructions et d'auto-réflexion. Dans ce travail, nous étudions l'entraînement RL zéro sur 10 modèles de base divers, couvrant différentes familles et tailles, notamment LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, et tous les modèles Qwen2.5 de 0.5B à 32B. En exploitant plusieurs stratégies de conception clés - telles que l'ajustement de la récompense de format et le contrôle de la difficulté des requêtes - nous obtenons des améliorations substantielles à la fois en précision de raisonnement et en longueur de réponse dans la plupart des configurations. Cependant, en surveillant attentivement la dynamique de l'entraînement, nous observons que différents modèles de base présentent des schémas distincts pendant l'entraînement. Par exemple, l'augmentation de la longueur de la réponse ne corrèle pas toujours avec l'émergence de certains comportements cognitifs tels que la vérification (c'est-à-dire le "moment eurêka"). Notamment, nous observons le "moment eurêka" pour la première fois dans des petits modèles ne faisant pas partie de la famille Qwen. Nous partageons les conceptions clés qui permettent un entraînement RL zéro réussi, ainsi que nos découvertes et pratiques. Pour faciliter la recherche future, nous rendons open-source le code, les modèles et les outils d'analyse.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.

Summary

AI-Generated Summary

PDF301March 25, 2025