ChatPaper.aiChatPaper

Pré-Treinamento por Reforço

Reinforcement Pre-Training

June 9, 2025
Autores: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI

Resumo

Neste trabalho, introduzimos o Pré-Treinamento por Reforço (Reinforcement Pre-Training, RPT) como um novo paradigma de escalonamento para modelos de linguagem de grande escala e aprendizado por reforço (RL). Especificamente, reformulamos a previsão do próximo token como uma tarefa de raciocínio treinada usando RL, na qual o modelo recebe recompensas verificáveis por prever corretamente o próximo token em um determinado contexto. O RPT oferece um método escalável para aproveitar grandes quantidades de dados textuais para RL de propósito geral, em vez de depender de respostas anotadas específicas de domínio. Ao incentivar a capacidade de raciocínio para prever o próximo token, o RPT melhora significativamente a precisão da modelagem de linguagem na previsão dos próximos tokens. Além disso, o RPT fornece uma base pré-treinada robusta para ajustes finos adicionais por reforço. As curvas de escalonamento mostram que o aumento no poder computacional de treinamento melhora consistentemente a precisão da previsão do próximo token. Os resultados posicionam o RPT como um paradigma de escalonamento eficaz e promissor para avançar o pré-treinamento de modelos de linguagem.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
PDF20418June 10, 2025