Preentrenamiento por Refuerzo
Reinforcement Pre-Training
June 9, 2025
Autores: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI
Resumen
En este trabajo, presentamos el Preentrenamiento con Refuerzo (Reinforcement Pre-Training, RPT) como un nuevo paradigma de escalabilidad para modelos de lenguaje a gran escala y aprendizaje por refuerzo (RL). Específicamente, reformulamos la predicción del siguiente token como una tarea de razonamiento entrenada mediante RL, donde el modelo recibe recompensas verificables por predecir correctamente el siguiente token dado un contexto. RPT ofrece un método escalable para aprovechar grandes cantidades de datos de texto en RL de propósito general, en lugar de depender de respuestas anotadas específicas de un dominio. Al incentivar la capacidad de razonamiento para predecir el siguiente token, RPT mejora significativamente la precisión del modelado del lenguaje en la predicción de tokens subsiguientes. Además, RPT proporciona una base preentrenada sólida para un ajuste fino adicional con refuerzo. Las curvas de escalabilidad muestran que un mayor cómputo de entrenamiento mejora consistentemente la precisión en la predicción del siguiente token. Los resultados posicionan a RPT como un paradigma de escalabilidad efectivo y prometedor para avanzar en el preentrenamiento de modelos de lenguaje.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling
paradigm for large language models and reinforcement learning (RL).
Specifically, we reframe next-token prediction as a reasoning task trained
using RL, where it receives verifiable rewards for correctly predicting the
next token for a given context. RPT offers a scalable method to leverage vast
amounts of text data for general-purpose RL, rather than relying on
domain-specific annotated answers. By incentivizing the capability of
next-token reasoning, RPT significantly improves the language modeling accuracy
of predicting the next tokens. Moreover, RPT provides a strong pre-trained
foundation for further reinforcement fine-tuning. The scaling curves show that
increased training compute consistently improves the next-token prediction
accuracy. The results position RPT as an effective and promising scaling
paradigm to advance language model pre-training.