ExpRL: Aprendizaje por Refuerzo Exploratorio para el Entrenamiento Intermedio de LLMs

Resumen

El aprendizaje por refuerzo con recompensas dispersas (RL) se ha convertido en una herramienta estándar para mejorar el razonamiento de los LLM, pero su éxito depende críticamente de la cobertura presente en el modelo base. En la práctica, los modelos a menudo se preparan para RL mediante entrenamiento intermedio en trazas de razonamiento seleccionadas que enseñan habilidades primitivas útiles como la descomposición, verificación o autocorrección. Aunque efectiva, esta estrategia requiere especificar manualmente qué debe aprender el modelo, y no está claro si dicha cobertura primitiva es suficiente para problemas mucho más difíciles, que requieren combinar estas habilidades en estrategias de solución más amplias. Estudiamos un enfoque más automatizado: entrenamiento intermedio basado en RL utilizando grandes corpus de datos de preguntas y respuestas escritas por humanos. En lugar de tratar las soluciones de referencia como objetivos a imitar, nuestro método, ExpRL, las utiliza como andamios de recompensa: las referencias se ocultan de la política y se utilizan solo para construir rúbricas de calificación específicas del problema para juzgar trazas de razonamiento dentro de la política. La política muestrea a partir del aviso del problema original, mientras que un juez LLM compara la traza de razonamiento muestreada con la solución de referencia y asigna recompensas densas a nivel de resultado o a nivel de proceso. Esto permite que ExpRL refuerce el progreso parcial, reducciones intermedias útiles y comportamientos de razonamiento productivos que las recompensas dispersas de respuesta final a menudo no logran ponderar. En tareas desafiantes de razonamiento matemático, ExpRL produce un priming de RL más fuerte que SFT, GRPO de recompensa dispersa y auto-destilación, y proporciona una mejor inicialización para el RL de recompensa dispersa posterior. Experimentos adicionales en dominios mixtos sugieren además que ExpRL puede extenderse más allá del entorno original exclusivamente matemático.

English

Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through mid-training on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: RL-based mid-training using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as reward scaffolds: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.