ChatPaper.aiChatPaper

Logic-RL : Libérer le raisonnement des LLM grâce à l'apprentissage par renforcement basé sur des règles

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

February 20, 2025
Auteurs: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI

Résumé

Inspirés par le succès de DeepSeek-R1, nous explorons le potentiel de l'apprentissage par renforcement basé sur des règles (RL) dans les modèles de raisonnement à grande échelle. Pour analyser la dynamique du raisonnement, nous utilisons des énigmes logiques synthétiques comme données d'entraînement en raison de leur complexité contrôlable et de la vérification directe des réponses. Nous apportons plusieurs contributions techniques clés qui conduisent à un entraînement RL efficace et stable : un prompt système qui met l'accent sur le processus de réflexion et de réponse, une fonction de récompense de format rigoureuse qui pénalise les sorties prenant des raccourcis, et une recette d'entraînement simple qui assure une convergence stable. Notre modèle de 7B développe des compétences de raisonnement avancées—telles que la réflexion, la vérification et la synthèse—qui sont absentes du corpus logique. De manière remarquable, après un entraînement sur seulement 5 000 problèmes logiques, il démontre des capacités de généralisation sur les benchmarks mathématiques difficiles AIME et AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in large reasoning models. To analyze reasoning dynamics, we use synthetic logic puzzles as training data due to their controllable complexity and straightforward answer verification. We make some key technical contributions that lead to effective and stable RL training: a system prompt that emphasizes the thinking and answering process, a stringent format reward function that penalizes outputs for taking shortcuts, and a straightforward training recipe that achieves stable convergence. Our 7B model develops advanced reasoning skills-such as reflection, verification, and summarization-that are absent from the logic corpus. Remarkably, after training on just 5K logic problems, it demonstrates generalization abilities to the challenging math benchmarks AIME and AMC.

Summary

AI-Generated Summary

PDF485February 21, 2025