Leren redeneren als actieabstracties met schaalbare mid-training RL

Samenvatting

Grote taalmodellen blinken uit met reinforcement learning (RL), maar het volledig benutten van dit potentieel vereist een mid-training fase. Een effectieve mid-training fase zou een compacte set nuttige acties moeten identificeren en snelle selectie daartussen mogelijk maken via online RL. We formaliseren deze intuïtie door het eerste theoretische resultaat te presenteren over hoe mid-training post-training vormt: het karakteriseert een actiesubruimte die zowel de waardebenaderingsfout door snoeien als de RL-fout tijdens daaropvolgende planning minimaliseert. Onze analyse onthult twee cruciale determinanten van de effectiviteit van mid-training: snoeiefficiëntie, die de prior van het initiële RL-beleid vormt, en de impact ervan op RL-convergentie, die bepaalt in hoeverre dat beleid kan worden verbeterd via online interacties. Deze resultaten suggereren dat mid-training het meest effectief is wanneer de beslissingsruimte compact is en de effectieve horizon kort is, wat het belang benadrukt van opereren in de ruimte van actieabstracties in plaats van primitieve acties. Gebaseerd op deze inzichten stellen we Reasoning as Action Abstractions (RA3) voor, een schaalbare mid-training algoritme. Specifiek leiden we een sequentiële variatie-ondergrens af en optimaliseren we deze door iteratief temporeel consistente latente structuren te ontdekken via RL, gevolgd door fine-tuning op de gebootstrapte data. Experimenten op codegeneratietaken demonstreren de effectiviteit van onze aanpak. Over meerdere basismodellen verbetert RA3 de gemiddelde prestatie op HumanEval en MBPP met respectievelijk 8 en 4 punten ten opzichte van het basismodel en de next-token voorspellingsbaseline. Bovendien bereikt RA3 snellere convergentie en hogere asymptotische prestaties in RLVR op HumanEval+, MBPP+, LiveCodeBench en Codeforces.

English

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.

Leren redeneren als actieabstracties met schaalbare mid-training RL

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

Samenvatting

Support