ChatPaper.aiChatPaper

BOW: Esplorazione della Prossima Parola con Collo di Bottiglia

BOW: Bottlenecked Next Word Exploration

June 16, 2025
Autori: Ming Shen, Zhikun Xu, Xiao Ye, Jacob Dineen, Ben Zhou
cs.AI

Abstract

I grandi modelli linguistici (LLM) sono tipicamente addestrati tramite la previsione della parola successiva (NWP), che garantisce una forte fluidità superficiale ma spesso manca di supporto per un ragionamento robusto. Proponiamo BOttlenecked next Word exploration (BOW), un nuovo framework di apprendimento per rinforzo (RL) che ripensa la NWP introducendo un collo di bottiglia di ragionamento, in cui un modello di policy genera prima un percorso di ragionamento anziché prevedere direttamente il token successivo, dopodiché un modello giudice congelato prevede la distribuzione del token successivo basandosi esclusivamente su questo percorso di ragionamento. Addestriamo il modello di policy utilizzando GRPO con ricompense che quantificano quanto efficacemente il percorso di ragionamento facilita il recupero della parola successiva. Rispetto ad altre baseline di pre-addestramento continuo, dimostriamo che BOW migliora sia le capacità di ragionamento generale che quelle specifiche per la previsione della parola successiva del modello di base, valutate su vari benchmark. I nostri risultati mostrano che BOW può servire come alternativa efficace e scalabile alla NWP tradizionale.
English
Large language models (LLMs) are typically trained via next-word prediction (NWP), which provides strong surface-level fluency but often lacks support for robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel RL framework that rethinks NWP by introducing a reasoning bottleneck where a policy model first generates a reasoning path rather than predicting the next token directly, after which a frozen judge model predicts the next token distribution based solely on this reasoning path. We train the policy model using GRPO with rewards that quantify how effectively the reasoning path facilitates next-word recovery. Compared with other continual pretraining baselines, we show that BOW improves both the general and next-word reasoning capabilities of the base model, evaluated on various benchmarks. Our findings show that BOW can serve as an effective and scalable alternative to vanilla NWP.
PDF22June 17, 2025