ChatPaper.aiChatPaper

Explorando o Limite da Recompensa de Resultado para Aprendizado de Raciocínio Matemático

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

February 10, 2025
Autores: Chengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen
cs.AI

Resumo

As habilidades de raciocínio, especialmente aquelas para resolver problemas matemáticos complexos, são componentes cruciais da inteligência geral. Avanços recentes por empresas proprietárias, como os modelos da série o da OpenAI, têm feito progressos notáveis em tarefas de raciocínio. No entanto, os detalhes técnicos completos permanecem não revelados, e as técnicas que se acredita terem sido adotadas são apenas o aprendizado por reforço (RL) e a longa cadeia de pensamentos. Este artigo propõe um novo framework de RL, denominado OREAL, para buscar o limite de desempenho que pode ser alcançado por meio do Aprendizado por Reforço baseado em Resultados para tarefas de raciocínio matemático, onde apenas recompensas de resultado binário são facilmente acessíveis. Demonstramos teoricamente que a clonagem de comportamento em trajetórias positivas a partir da amostragem do melhor de N (BoN) é suficiente para aprender a política ótima regularizada por KL em ambientes de feedback binário. Essa formulação também implica que as recompensas de amostras negativas devem ser remodeladas para garantir a consistência do gradiente entre amostras positivas e negativas. Para aliviar as dificuldades de longa data trazidas pelas recompensas esparsas no RL, que são ainda exacerbadas pela parcial correção da longa cadeia de pensamento em tarefas de raciocínio, aplicamos ainda um modelo de recompensa ao nível de token para amostrar tokens importantes em trajetórias de raciocínio para aprendizado. Com o OREAL, pela primeira vez, um modelo de 7B pode obter uma precisão de 94,0 pass@1 no MATH-500 por meio de RL, estando em pé de igualdade com modelos de 32B. O OREAL-32B também supera os modelos anteriores de 32B treinados por destilação com uma precisão de 95,0 pass@1 no MATH-500. Nossa investigação também indica a importância dos modelos de política inicial e das consultas de treinamento para o RL. O código, modelos e dados serão disponibilizados para beneficiar pesquisas futuras em https://github.com/InternLM/OREAL.
English
Reasoning abilities, especially those for solving complex math problems, are crucial components of general intelligence. Recent advances by proprietary companies, such as o-series models of OpenAI, have made remarkable progress on reasoning tasks. However, the complete technical details remain unrevealed, and the techniques that are believed certainly to be adopted are only reinforcement learning (RL) and the long chain of thoughts. This paper proposes a new RL framework, termed OREAL, to pursue the performance limit that can be achieved through Outcome REwArd-based reinforcement Learning for mathematical reasoning tasks, where only binary outcome rewards are easily accessible. We theoretically prove that behavior cloning on positive trajectories from best-of-N (BoN) sampling is sufficient to learn the KL-regularized optimal policy in binary feedback environments. This formulation further implies that the rewards of negative samples should be reshaped to ensure the gradient consistency between positive and negative samples. To alleviate the long-existing difficulties brought by sparse rewards in RL, which are even exacerbated by the partial correctness of the long chain of thought for reasoning tasks, we further apply a token-level reward model to sample important tokens in reasoning trajectories for learning. With OREAL, for the first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL, being on par with 32B models. OREAL-32B also surpasses previous 32B models trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our investigation also indicates the importance of initial policy models and training queries for RL. Code, models, and data will be released to benefit future researchhttps://github.com/InternLM/OREAL.
PDF616February 11, 2025