Aprender a razonar como abstracciones de acción con RL escalable durante el entrenamiento intermedio

Resumen

Los modelos de lenguaje de gran escala destacan con el aprendizaje por refuerzo (RL, por sus siglas en inglés), pero desbloquear todo su potencial requiere una etapa intermedia de entrenamiento. Una fase intermedia efectiva debe identificar un conjunto compacto de acciones útiles y permitir una selección rápida entre ellas mediante RL en línea. Formalizamos esta intuición presentando el primer resultado teórico sobre cómo el entrenamiento intermedio moldea el post-entrenamiento: caracteriza un subespacio de acciones que minimiza tanto el error de aproximación de valor derivado de la poda como el error de RL durante la planificación posterior. Nuestro análisis revela dos determinantes clave de la efectividad del entrenamiento intermedio: la eficiencia de la poda, que configura el previo de la política inicial de RL, y su impacto en la convergencia de RL, que gobierna el grado en que esa política puede mejorarse mediante interacciones en línea. Estos resultados sugieren que el entrenamiento intermedio es más efectivo cuando el espacio de decisiones es compacto y el horizonte efectivo es corto, destacando la importancia de operar en el espacio de abstracciones de acciones en lugar de acciones primitivas. Basándonos en estas ideas, proponemos **Razonamiento como Abstracciones de Acciones (RA3)**, un algoritmo escalable de entrenamiento intermedio. Específicamente, derivamos un límite inferior variacional secuencial y lo optimizamos descubriendo iterativamente estructuras latentes temporalmente consistentes mediante RL, seguido de un ajuste fino sobre los datos bootstrapped. Los experimentos en tareas de generación de código demuestran la efectividad de nuestro enfoque. En múltiples modelos base, RA3 mejora el rendimiento promedio en HumanEval y MBPP en 8 y 4 puntos, respectivamente, sobre el modelo base y la línea base de predicción del siguiente token. Además, RA3 logra una convergencia más rápida y un rendimiento asintótico superior en RLVR en HumanEval+, MBPP+, LiveCodeBench y Codeforces.

English

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.

Aprender a razonar como abstracciones de acción con RL escalable durante el entrenamiento intermedio

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

Resumen

Support