SimpleRL-Zoo: Investigación y Domesticación del Aprendizaje por Refuerzo Cero para Modelos Base Abiertos en Entornos No Controlados
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
March 24, 2025
Autores: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI
Resumen
DeepSeek-R1 ha demostrado que el razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) extenso puede surgir de manera natural a través de un marco simple de aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en reglas, donde el entrenamiento puede comenzar directamente desde los modelos base, un paradigma conocido como entrenamiento RL cero. Los esfuerzos más recientes para reproducir el entrenamiento RL cero se han centrado principalmente en la serie de modelos Qwen2.5, lo cual puede no ser representativo, ya que encontramos que los modelos base ya exhiben fuertes habilidades de seguimiento de instrucciones y autorreflexión. En este trabajo, investigamos el entrenamiento RL cero en 10 modelos base diversos, abarcando diferentes familias y tamaños, incluyendo LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B y todos los modelos Qwen2.5 desde 0.5B hasta 32B. Aprovechando varias estrategias clave de diseño, como ajustar la recompensa de formato y controlar la dificultad de las consultas, logramos mejoras sustanciales tanto en la precisión del razonamiento como en la longitud de las respuestas en la mayoría de los escenarios. Sin embargo, al monitorear cuidadosamente la dinámica del entrenamiento, observamos que diferentes modelos base exhiben patrones distintos durante el entrenamiento. Por ejemplo, el aumento en la longitud de las respuestas no siempre se correlaciona con la aparición de ciertos comportamientos cognitivos, como la verificación (es decir, el "momento eureka"). Notablemente, observamos el "momento eureka" por primera vez en modelos pequeños que no pertenecen a la familia Qwen. Compartimos los diseños clave que permiten un entrenamiento RL cero exitoso, junto con nuestros hallazgos y prácticas. Para facilitar investigaciones futuras, hemos hecho de código abierto el código, los modelos y las herramientas de análisis.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can
naturally emerge through a simple reinforcement learning (RL) framework with
rule-based rewards, where the training may directly start from the base
models-a paradigm referred to as zero RL training. Most recent efforts to
reproduce zero RL training have primarily focused on the Qwen2.5 model series,
which may not be representative as we find the base models already exhibit
strong instruction-following and self-reflection abilities. In this work, we
investigate zero RL training across 10 diverse base models, spanning different
families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B,
Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several
key design strategies-such as adjusting format reward and controlling query
difficulty-we achieve substantial improvements in both reasoning accuracy and
response length across most settings. However, by carefully monitoring the
training dynamics, we observe that different base models exhibit distinct
patterns during training. For instance, the increased response length does not
always correlate with the emergence of certain cognitive behaviors such as
verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for
the first time in small models not from the Qwen family. We share the key
designs that enable successful zero RL training, along with our findings and
practices. To facilitate further research, we open-source the code, models, and
analysis tools.Summary
AI-Generated Summary