ChatPaper.aiChatPaper

Aprendizado de Raciocínio como Abstrações de Ação com RL Escalável em Meio ao Treinamento

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

September 30, 2025
Autores: Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang
cs.AI

Resumo

Modelos de linguagem de grande escala se destacam com o aprendizado por reforço (RL), mas desbloquear todo esse potencial requer uma etapa intermediária de treinamento. Uma fase intermediária eficaz deve identificar um conjunto compacto de ações úteis e permitir uma seleção rápida entre elas por meio de RL online. Formalizamos essa intuição apresentando o primeiro resultado teórico sobre como o treinamento intermediário molda o pós-treinamento: ele caracteriza um subespaço de ações que minimiza tanto o erro de aproximação de valor decorrente da poda quanto o erro de RL durante o planejamento subsequente. Nossa análise revela dois determinantes-chave da eficácia do treinamento intermediário: a eficiência da poda, que molda o prior da política inicial de RL, e seu impacto na convergência do RL, que governa até que ponto essa política pode ser aprimorada por meio de interações online. Esses resultados sugerem que o treinamento intermediário é mais eficaz quando o espaço de decisão é compacto e o horizonte efetivo é curto, destacando a importância de operar no espaço de abstrações de ações em vez de ações primitivas. Com base nessas percepções, propomos o Reasoning as Action Abstractions (RA3), um algoritmo escalável de treinamento intermediário. Especificamente, derivamos um limite inferior variacional sequencial e o otimizamos iterativamente, descobrindo estruturas latentes temporalmente consistentes por meio de RL, seguido por um ajuste fino nos dados bootstrapped. Experimentos em tarefas de geração de código demonstram a eficácia de nossa abordagem. Em vários modelos base, o RA3 melhora o desempenho médio no HumanEval e no MBPP em 8 e 4 pontos, respectivamente, em relação ao modelo base e à linha de base de previsão do próximo token. Além disso, o RA3 alcança convergência mais rápida e desempenho assintótico superior no RLVR no HumanEval+, MBPP+, LiveCodeBench e Codeforces.
English
Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.
PDF52October 1, 2025