Parte I: ¿Trucos o Trampas? Un Análisis Profundo del Aprendizaje por Refuerzo en el Razonamiento de Modelos de Lenguaje Grande
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning
August 11, 2025
Autores: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
cs.AI
Resumen
El aprendizaje por refuerzo (RL) para el razonamiento de modelos de lenguaje grandes (LLM) ha surgido rápidamente como un área de investigación destacada, marcada por un aumento significativo en estudios relacionados tanto en innovaciones algorítmicas como en aplicaciones prácticas. A pesar de este progreso, persisten varios desafíos críticos, incluyendo la ausencia de directrices estandarizadas para emplear técnicas de RL y una comprensión fragmentada de sus mecanismos subyacentes. Además, configuraciones experimentales inconsistentes, variaciones en los datos de entrenamiento y diferencias en la inicialización de los modelos han llevado a conclusiones contradictorias, oscureciendo las características clave de estas técnicas y generando confusión entre los profesionales al seleccionar las técnicas apropiadas. Este artículo revisa sistemáticamente las técnicas de RL ampliamente adoptadas mediante reproducciones rigurosas y evaluaciones aisladas dentro de un marco de código abierto unificado. Analizamos los mecanismos internos, los escenarios aplicables y los principios centrales de cada técnica a través de experimentos detallados, incluyendo conjuntos de datos de diversa dificultad, tamaños de modelos y arquitecturas. Basándonos en estos hallazgos, presentamos directrices claras para seleccionar técnicas de RL adaptadas a configuraciones específicas y proporcionamos una hoja de ruta confiable para los profesionales que navegan por el dominio de RL para LLM. Finalmente, revelamos que una combinación minimalista de dos técnicas puede desbloquear la capacidad de aprendizaje de políticas sin críticos utilizando la pérdida PPO estándar. Los resultados demuestran que nuestra combinación simple mejora consistentemente el rendimiento, superando estrategias como GRPO y DAPO.
English
Reinforcement learning for LLM reasoning has rapidly emerged as a prominent
research area, marked by a significant surge in related studies on both
algorithmic innovations and practical applications. Despite this progress,
several critical challenges remain, including the absence of standardized
guidelines for employing RL techniques and a fragmented understanding of their
underlying mechanisms. Additionally, inconsistent experimental settings,
variations in training data, and differences in model initialization have led
to conflicting conclusions, obscuring the key characteristics of these
techniques and creating confusion among practitioners when selecting
appropriate techniques. This paper systematically reviews widely adopted RL
techniques through rigorous reproductions and isolated evaluations within a
unified open-source framework. We analyze the internal mechanisms, applicable
scenarios, and core principles of each technique through fine-grained
experiments, including datasets of varying difficulty, model sizes, and
architectures. Based on these insights, we present clear guidelines for
selecting RL techniques tailored to specific setups, and provide a reliable
roadmap for practitioners navigating the RL for the LLM domain. Finally, we
reveal that a minimalist combination of two techniques can unlock the learning
capability of critic-free policies using vanilla PPO loss. The results
demonstrate that our simple combination consistently improves performance,
surpassing strategies like GRPO and DAPO.