ExpRL : RL exploratoire pour l’entraînement intermédiaire des LLM

Résumé

L'apprentissage par renforcement (RL) à récompenses rares est devenu un outil standard pour améliorer le raisonnement des LLM, mais son succès dépend crucialement de la couverture présente dans le modèle de base. En pratique, les modèles sont souvent préparés pour le RL via un entraînement intermédiaire sur des traces de raisonnement curées qui enseignent des compétences primitives utiles telles que la décomposition, la vérification ou l'auto-correction. Bien qu'efficace, cette stratégie nécessite de spécifier manuellement ce que le modèle doit apprendre, et il reste incertain si une telle couverture primitive est suffisante pour des problèmes beaucoup plus difficiles, qui exigent de combiner ces compétences en des stratégies de résolution plus larges. Nous étudions une approche plus automatisée : un entraînement intermédiaire basé sur le RL utilisant de grands corpus de données de questions-réponses rédigées par des humains. Plutôt que de traiter les solutions de référence comme des cibles à imiter, notre méthode, ExpRL, les utilise comme échafaudages de récompenses : les références sont cachées de la politique et servent uniquement à construire des grilles d'évaluation spécifiques au problème pour juger les traces de raisonnement sur politique. La politique échantillonne à partir de l'énoncé initial du problème, tandis qu'un juge LLM compare la trace de raisonnement échantillonnée à la solution de référence et attribue des récompenses denses au niveau du résultat ou du processus. Cela permet à ExpRL de renforcer les progrès partiels, les réductions intermédiaires utiles et les comportements de raisonnement productifs que les récompenses rares basées sur la réponse finale échouent souvent à valoriser. Sur des tâches de raisonnement mathématique exigeantes, ExpRL produit un meilleur amorçage RL que le SFT, la GRPO à récompenses rares et l'auto-distillation, et fournit une meilleure initialisation pour le RL ultérieur à récompenses rares. Des expériences supplémentaires sur des domaines mixtes suggèrent en outre qu'ExpRL peut s'étendre au-delà du cadre purement mathématique initial.

English

Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through mid-training on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: RL-based mid-training using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as reward scaffolds: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.