ProRL: El Aprendizaje por Refuerzo Prolongado Amplía los Límites del Razonamiento en Modelos de Lenguaje a Gran EscalaProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in
Large Language Models
Los recientes avances en modelos de lenguaje centrados en razonamiento han destacado el aprendizaje por refuerzo (RL, por sus siglas en inglés) como un método prometedor para alinear modelos con recompensas verificables. Sin embargo, sigue siendo controvertido si el RL realmente expande las capacidades de razonamiento de un modelo o simplemente amplifica las salidas de alta recompensa que ya están latentes en la distribución del modelo base, y si el escalamiento continuo del cómputo de RL conduce de manera confiable a un mejor desempeño en el razonamiento. En este trabajo, desafiamos las suposiciones predominantes al demostrar que el entrenamiento prolongado de RL (ProRL) puede descubrir estrategias de razonamiento novedosas que son inaccesibles para los modelos base, incluso bajo un muestreo extensivo. Introducimos ProRL, una metodología de entrenamiento novedosa que incorpora control de divergencia KL, reinicio de políticas de referencia y un conjunto diverso de tareas. Nuestro análisis empírico revela que los modelos entrenados con RL superan consistentemente a los modelos base en una amplia gama de evaluaciones pass@k, incluyendo escenarios en los que los modelos base fallan por completo, independientemente del número de intentos. Además, mostramos que las mejoras en los límites de razonamiento se correlacionan fuertemente con la competencia en tareas del modelo base y la duración del entrenamiento, lo que sugiere que el RL puede explorar y poblar nuevas regiones del espacio de soluciones con el tiempo. Estos hallazgos ofrecen nuevas perspectivas sobre las condiciones bajo las cuales el RL expande significativamente los límites de razonamiento en los modelos de lenguaje y establecen una base para trabajos futuros sobre RL de horizonte largo para el razonamiento. Liberamos los pesos del modelo para apoyar investigaciones adicionales: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B.