BOW: Exploración de la Siguiente Palabra con Cuello de Botella
BOW: Bottlenecked Next Word Exploration
June 16, 2025
Autores: Ming Shen, Zhikun Xu, Xiao Ye, Jacob Dineen, Ben Zhou
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen entrenarse mediante la predicción de la siguiente palabra (NWP, por sus siglas en inglés), lo que proporciona una fluidez superficial sólida, pero a menudo carece de apoyo para un razonamiento robusto. Proponemos BOttlenecked next Word exploration (BOW), un novedoso marco de aprendizaje por refuerzo (RL) que replantea la NWP al introducir un cuello de botella de razonamiento, donde un modelo de política genera primero una ruta de razonamiento en lugar de predecir directamente el siguiente token, tras lo cual un modelo juez congelado predice la distribución del siguiente token basándose únicamente en esta ruta de razonamiento. Entrenamos el modelo de política utilizando GRPO con recompensas que cuantifican cuán efectivamente la ruta de razonamiento facilita la recuperación de la siguiente palabra. En comparación con otras líneas base de preentrenamiento continuo, demostramos que BOW mejora tanto las capacidades generales de razonamiento como las de predicción de la siguiente palabra del modelo base, evaluadas en varios puntos de referencia. Nuestros hallazgos muestran que BOW puede servir como una alternativa efectiva y escalable a la NWP convencional.
English
Large language models (LLMs) are typically trained via next-word prediction
(NWP), which provides strong surface-level fluency but often lacks support for
robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel
RL framework that rethinks NWP by introducing a reasoning bottleneck where a
policy model first generates a reasoning path rather than predicting the next
token directly, after which a frozen judge model predicts the next token
distribution based solely on this reasoning path. We train the policy model
using GRPO with rewards that quantify how effectively the reasoning path
facilitates next-word recovery. Compared with other continual pretraining
baselines, we show that BOW improves both the general and next-word reasoning
capabilities of the base model, evaluated on various benchmarks. Our findings
show that BOW can serve as an effective and scalable alternative to vanilla
NWP.