Apprendre à raisonner comme des abstractions d'action avec un apprentissage par renforcement à mi-entraînement évolutif

papers.abstract

Les grands modèles de langage excellent avec l'apprentissage par renforcement (RL), mais pour pleinement exploiter ce potentiel, une étape intermédiaire d'entraînement est nécessaire. Une phase intermédiaire efficace doit identifier un ensemble compact d'actions utiles et permettre une sélection rapide parmi elles via le RL en ligne. Nous formalisons cette intuition en présentant le premier résultat théorique sur la manière dont l'entraînement intermédiaire façonne l'après-entraînement : il caractérise un sous-espace d'actions qui minimise à la fois l'erreur d'approximation de la valeur due à l'élagage et l'erreur de RL lors de la planification ultérieure. Notre analyse révèle deux déterminants clés de l'efficacité de l'entraînement intermédiaire : l'efficacité de l'élagage, qui façonne l'a priori de la politique initiale de RL, et son impact sur la convergence du RL, qui régit la mesure dans laquelle cette politique peut être améliorée via des interactions en ligne. Ces résultats suggèrent que l'entraînement intermédiaire est plus efficace lorsque l'espace de décision est compact et que l'horizon effectif est court, soulignant l'importance d'opérer dans l'espace des abstractions d'actions plutôt que dans celui des actions primitives. En nous appuyant sur ces insights, nous proposons le Raisonnement comme Abstractions d'Actions (RA3), un algorithme d'entraînement intermédiaire scalable. Plus précisément, nous dérivons une borne inférieure variationnelle séquentielle et l'optimisons en découvrant itérativement des structures latentes temporellement cohérentes via le RL, suivies d'un affinage sur les données bootstrapées. Les expériences sur des tâches de génération de code démontrent l'efficacité de notre approche. Sur plusieurs modèles de base, RA3 améliore la performance moyenne sur HumanEval et MBPP de 8 et 4 points par rapport au modèle de base et à la baseline de prédiction du token suivant. De plus, RA3 atteint une convergence plus rapide et une performance asymptotique plus élevée dans RLVR sur HumanEval+, MBPP+, LiveCodeBench et Codeforces.

English

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.

Apprendre à raisonner comme des abstractions d'action avec un apprentissage par renforcement à mi-entraînement évolutif

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

papers.abstract

Support