Imparare a Ragionare come Astrazioni di Azioni con RL Scalabile a Metà Addestramento

Abstract

I grandi modelli linguistici eccellono con l'apprendimento per rinforzo (RL), ma per sbloccare appieno questo potenziale è necessaria una fase intermedia di addestramento. Una fase intermedia efficace dovrebbe identificare un insieme compatto di azioni utili e consentire una rapida selezione tra di esse attraverso l'RL online. Formalizziamo questa intuizione presentando il primo risultato teorico su come la fase intermedia influenzi il post-addestramento: caratterizza un sottospazio di azioni che minimizza sia l'errore di approssimazione del valore derivante dalla potatura, sia l'errore di RL durante la successiva pianificazione. La nostra analisi rivela due determinanti chiave dell'efficacia della fase intermedia: l'efficienza della potatura, che modella il prior della politica iniziale di RL, e il suo impatto sulla convergenza dell'RL, che governa la misura in cui tale politica può essere migliorata attraverso interazioni online. Questi risultati suggeriscono che la fase intermedia è più efficace quando lo spazio decisionale è compatto e l'orizzonte effettivo è breve, evidenziando l'importanza di operare nello spazio delle astrazioni di azione piuttosto che nelle azioni primitive. Basandoci su queste intuizioni, proponiamo Reasoning as Action Abstractions (RA3), un algoritmo scalabile per la fase intermedia. In particolare, deriviamo un limite inferiore variazionale sequenziale e lo ottimizziamo scoprendo iterativamente strutture latenti temporalmente coerenti tramite RL, seguito da un affinamento sui dati bootstrappati. Esperimenti su compiti di generazione di codice dimostrano l'efficacia del nostro approccio. Su più modelli di base, RA3 migliora le prestazioni medie su HumanEval e MBPP di 8 e 4 punti rispetto al modello di base e alla baseline di previsione del token successivo. Inoltre, RA3 raggiunge una convergenza più rapida e prestazioni asintotiche superiori in RLVR su HumanEval+, MBPP+, LiveCodeBench e Codeforces.

English

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.

Imparare a Ragionare come Astrazioni di Azioni con RL Scalabile a Metà Addestramento

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

Abstract

Support