Logic-RL: Het Ontketenen van LLM-redenering met Regelgebaseerd Reinforcement Learning
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
February 20, 2025
Auteurs: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI
Samenvatting
Geïnspireerd door het succes van DeepSeek-R1, onderzoeken we het potentieel van regelgebaseerd reinforcement learning (RL) in grote redeneermodellen. Om de dynamiek van redeneren te analyseren, gebruiken we synthetische logische puzzels als trainingsdata vanwege hun beheersbare complexiteit en eenvoudige antwoordverificatie. We leveren enkele belangrijke technische bijdragen die leiden tot effectieve en stabiele RL-training: een systeemprompt die het denk- en antwoordproces benadrukt, een strikte formatbeloningsfunctie die outputs bestraft voor het nemen van shortcuts, en een eenvoudig trainingsrecept dat stabiele convergentie bereikt. Ons 7B-model ontwikkelt geavanceerde redeneervaardigheden—zoals reflectie, verificatie en samenvatting—die afwezig zijn in het logische corpus. Opmerkelijk is dat het, na training op slechts 5K logische problemen, generalisatievermogen toont naar de uitdagende wiskundige benchmarks AIME en AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of
rule-based reinforcement learning (RL) in large reasoning models. To analyze
reasoning dynamics, we use synthetic logic puzzles as training data due to
their controllable complexity and straightforward answer verification. We make
some key technical contributions that lead to effective and stable RL training:
a system prompt that emphasizes the thinking and answering process, a stringent
format reward function that penalizes outputs for taking shortcuts, and a
straightforward training recipe that achieves stable convergence. Our 7B model
develops advanced reasoning skills-such as reflection, verification, and
summarization-that are absent from the logic corpus. Remarkably, after training
on just 5K logic problems, it demonstrates generalization abilities to the
challenging math benchmarks AIME and AMC.Summary
AI-Generated Summary