BOW: Exploración de la Siguiente Palabra con Cuello de Botella

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen entrenarse mediante la predicción de la siguiente palabra (NWP, por sus siglas en inglés), lo que proporciona una fluidez superficial sólida, pero a menudo carece de apoyo para un razonamiento robusto. Proponemos BOttlenecked next Word exploration (BOW), un novedoso marco de aprendizaje por refuerzo (RL) que replantea la NWP al introducir un cuello de botella de razonamiento, donde un modelo de política genera primero una ruta de razonamiento en lugar de predecir directamente el siguiente token, tras lo cual un modelo juez congelado predice la distribución del siguiente token basándose únicamente en esta ruta de razonamiento. Entrenamos el modelo de política utilizando GRPO con recompensas que cuantifican cuán efectivamente la ruta de razonamiento facilita la recuperación de la siguiente palabra. En comparación con otras líneas base de preentrenamiento continuo, demostramos que BOW mejora tanto las capacidades generales de razonamiento como las de predicción de la siguiente palabra del modelo base, evaluadas en varios puntos de referencia. Nuestros hallazgos muestran que BOW puede servir como una alternativa efectiva y escalable a la NWP convencional.

English

Large language models (LLMs) are typically trained via next-word prediction (NWP), which provides strong surface-level fluency but often lacks support for robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel RL framework that rethinks NWP by introducing a reasoning bottleneck where a policy model first generates a reasoning path rather than predicting the next token directly, after which a frozen judge model predicts the next token distribution based solely on this reasoning path. We train the policy model using GRPO with rewards that quantify how effectively the reasoning path facilitates next-word recovery. Compared with other continual pretraining baselines, we show that BOW improves both the general and next-word reasoning capabilities of the base model, evaluated on various benchmarks. Our findings show that BOW can serve as an effective and scalable alternative to vanilla NWP.

BOW: Exploración de la Siguiente Palabra con Cuello de Botella

BOW: Bottlenecked Next Word Exploration

Resumen

Support