Aprendizado de Raciocínio como Abstrações de Ação com RL Escalável em Meio ao Treinamento
Learning to Reason as Action Abstractions with Scalable Mid-Training RL
September 30, 2025
Autores: Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang
cs.AI
Resumo
Modelos de linguagem de grande escala se destacam com o aprendizado por reforço (RL), mas desbloquear todo esse potencial requer uma etapa intermediária de treinamento. Uma fase intermediária eficaz deve identificar um conjunto compacto de ações úteis e permitir uma seleção rápida entre elas por meio de RL online. Formalizamos essa intuição apresentando o primeiro resultado teórico sobre como o treinamento intermediário molda o pós-treinamento: ele caracteriza um subespaço de ações que minimiza tanto o erro de aproximação de valor decorrente da poda quanto o erro de RL durante o planejamento subsequente. Nossa análise revela dois determinantes-chave da eficácia do treinamento intermediário: a eficiência da poda, que molda o prior da política inicial de RL, e seu impacto na convergência do RL, que governa até que ponto essa política pode ser aprimorada por meio de interações online. Esses resultados sugerem que o treinamento intermediário é mais eficaz quando o espaço de decisão é compacto e o horizonte efetivo é curto, destacando a importância de operar no espaço de abstrações de ações em vez de ações primitivas. Com base nessas percepções, propomos o Reasoning as Action Abstractions (RA3), um algoritmo escalável de treinamento intermediário. Especificamente, derivamos um limite inferior variacional sequencial e o otimizamos iterativamente, descobrindo estruturas latentes temporalmente consistentes por meio de RL, seguido por um ajuste fino nos dados bootstrapped. Experimentos em tarefas de geração de código demonstram a eficácia de nossa abordagem. Em vários modelos base, o RA3 melhora o desempenho médio no HumanEval e no MBPP em 8 e 4 pontos, respectivamente, em relação ao modelo base e à linha de base de previsão do próximo token. Além disso, o RA3 alcança convergência mais rápida e desempenho assintótico superior no RLVR no HumanEval+, MBPP+, LiveCodeBench e Codeforces.
English
Large language models excel with reinforcement learning (RL), but fully
unlocking this potential requires a mid-training stage. An effective
mid-training phase should identify a compact set of useful actions and enable
fast selection among them through online RL. We formalize this intuition by
presenting the first theoretical result on how mid-training shapes
post-training: it characterizes an action subspace that minimizes both the
value approximation error from pruning and the RL error during subsequent
planning. Our analysis reveals two key determinants of mid-training
effectiveness: pruning efficiency, which shapes the prior of the initial RL
policy, and its impact on RL convergence, which governs the extent to which
that policy can be improved via online interactions. These results suggest that
mid-training is most effective when the decision space is compact and the
effective horizon is short, highlighting the importance of operating in the
space of action abstractions rather than primitive actions. Building on these
insights, we propose Reasoning as Action Abstractions (RA3), a scalable
mid-training algorithm. Specifically, we derive a sequential variational lower
bound and optimize it by iteratively discovering temporally-consistent latent
structures via RL, followed by fine-tuning on the bootstrapped data.
Experiments on code generation tasks demonstrate the effectiveness of our
approach. Across multiple base models, RA3 improves the average performance on
HumanEval and MBPP by 8 and 4 points over the base model and the next-token
prediction baseline. Furthermore, RA3 achieves faster convergence and higher
asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and
Codeforces.