ChatPaper.aiChatPaper

Erkundung der Grenze der Ergebnisbelohnung für das Erlernen mathematischer Argumentation.

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

February 10, 2025
Autoren: Chengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen
cs.AI

Zusammenfassung

Die Fähigkeiten zur Argumentation, insbesondere zur Lösung komplexer mathematischer Probleme, sind entscheidende Bestandteile der allgemeinen Intelligenz. In jüngster Zeit haben proprietäre Unternehmen, wie beispielsweise die o-Serien-Modelle von OpenAI, bemerkenswerte Fortschritte bei Argumentationsaufgaben erzielt. Die vollständigen technischen Details bleiben jedoch unveröffentlicht, und die angenommenen Techniken sind ausschließlich das Bestärkungslernen (RL) und die lange Gedankenreihe. Dieser Artikel schlägt ein neues RL-Framework namens OREAL vor, um die Leistungsgrenze zu verfolgen, die durch Outcome REwArd-basiertes Bestärkungslernen für mathematische Argumentationsaufgaben erreicht werden kann, bei denen nur binäre Ergebnisbelohnungen leicht zugänglich sind. Wir weisen theoretisch nach, dass das Verhaltenklonen auf positiven Trajektorien aus Best-of-N (BoN)-Stichproben ausreicht, um die KL-regulierten optimale Richtlinie in Umgebungen mit binärem Feedback zu erlernen. Diese Formulierung legt weiterhin nahe, dass die Belohnungen von negativen Stichproben umgeformt werden sollten, um die Gradientenkonsistenz zwischen positiven und negativen Stichproben sicherzustellen. Um die langjährigen Schwierigkeiten zu lindern, die durch spärliche Belohnungen im RL verursacht werden, die durch die teilweise Korrektheit der langen Gedankenreihe für Argumentationsaufgaben noch verschärft werden, wenden wir zusätzlich ein Token-Level-Belohnungsmodell an, um wichtige Token in Argumentationstrajectories zum Lernen auszuwählen. Mit OREAL kann ein 7B-Modell erstmals eine Passgenauigkeit von 94,0 bei MATH-500 durch RL erreichen, was mit 32B-Modellen vergleichbar ist. OREAL-32B übertrifft auch frühere 32B-Modelle, die durch Destillation trainiert wurden, mit einer Passgenauigkeit von 95,0 bei MATH-500. Unsere Untersuchung zeigt auch die Bedeutung von anfänglichen Richtlinienmodellen und Trainingsabfragen für RL auf. Der Code, die Modelle und die Daten werden veröffentlicht, um zukünftige Forschung zu unterstützen: https://github.com/InternLM/OREAL.
English
Reasoning abilities, especially those for solving complex math problems, are crucial components of general intelligence. Recent advances by proprietary companies, such as o-series models of OpenAI, have made remarkable progress on reasoning tasks. However, the complete technical details remain unrevealed, and the techniques that are believed certainly to be adopted are only reinforcement learning (RL) and the long chain of thoughts. This paper proposes a new RL framework, termed OREAL, to pursue the performance limit that can be achieved through Outcome REwArd-based reinforcement Learning for mathematical reasoning tasks, where only binary outcome rewards are easily accessible. We theoretically prove that behavior cloning on positive trajectories from best-of-N (BoN) sampling is sufficient to learn the KL-regularized optimal policy in binary feedback environments. This formulation further implies that the rewards of negative samples should be reshaped to ensure the gradient consistency between positive and negative samples. To alleviate the long-existing difficulties brought by sparse rewards in RL, which are even exacerbated by the partial correctness of the long chain of thought for reasoning tasks, we further apply a token-level reward model to sample important tokens in reasoning trajectories for learning. With OREAL, for the first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL, being on par with 32B models. OREAL-32B also surpasses previous 32B models trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our investigation also indicates the importance of initial policy models and training queries for RL. Code, models, and data will be released to benefit future researchhttps://github.com/InternLM/OREAL.

Summary

AI-Generated Summary

PDF616February 11, 2025