BOW: Exploração de Próxima Palavra com Gargalo
BOW: Bottlenecked Next Word Exploration
June 16, 2025
Autores: Ming Shen, Zhikun Xu, Xiao Ye, Jacob Dineen, Ben Zhou
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) são tipicamente treinados por meio de previsão da próxima palavra (NWP, do inglês Next-Word Prediction), o que proporciona fluência superficial robusta, mas frequentemente carece de suporte para raciocínio sólido. Propomos a Exploração de Próxima Palavra com Gargalo (BOW, do inglês BOttlenecked next Word exploration), uma nova estrutura de RL que repensa a NWP ao introduzir um gargalo de raciocínio, onde um modelo de política primeiro gera um caminho de raciocínio em vez de prever o próximo token diretamente, após o qual um modelo juiz congelado prevê a distribuição do próximo token com base exclusivamente nesse caminho de raciocínio. Treinamos o modelo de política usando GRPO com recompensas que quantificam quão efetivamente o caminho de raciocínio facilita a recuperação da próxima palavra. Em comparação com outras linhas de base de pré-treinamento contínuo, mostramos que o BOW melhora tanto as capacidades gerais de raciocínio quanto as de previsão da próxima palavra do modelo base, avaliadas em vários benchmarks. Nossos resultados demonstram que o BOW pode servir como uma alternativa eficaz e escalável à NWP tradicional.
English
Large language models (LLMs) are typically trained via next-word prediction
(NWP), which provides strong surface-level fluency but often lacks support for
robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel
RL framework that rethinks NWP by introducing a reasoning bottleneck where a
policy model first generates a reasoning path rather than predicting the next
token directly, after which a frozen judge model predicts the next token
distribution based solely on this reasoning path. We train the policy model
using GRPO with rewards that quantify how effectively the reasoning path
facilitates next-word recovery. Compared with other continual pretraining
baselines, we show that BOW improves both the general and next-word reasoning
capabilities of the base model, evaluated on various benchmarks. Our findings
show that BOW can serve as an effective and scalable alternative to vanilla
NWP.