Logic-RL: Freisetzung von LLM-Argumentation durch regelbasiertes Reinforcement Learning
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
February 20, 2025
Autoren: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI
Zusammenfassung
Inspiriert vom Erfolg von DeepSeek-R1 untersuchen wir das Potenzial von regelbasiertem Reinforcement Learning (RL) in großen Modellen für logisches Denken. Um die Dynamik des Denkprozesses zu analysieren, verwenden wir synthetische Logikrätsel als Trainingsdaten, da deren Komplexität kontrollierbar und die Antwortüberprüfung unkompliziert ist. Wir leisten einige wichtige technische Beiträge, die zu effektivem und stabilem RL-Training führen: einen System-Prompt, der den Denk- und Antwortprozess betont, eine strenge Format-Belohnungsfunktion, die Ausgaben für Abkürzungen bestraft, und ein einfaches Trainingsrezept, das eine stabile Konvergenz erreicht. Unser 7B-Modell entwickelt fortgeschrittene Denkfähigkeiten – wie Reflexion, Überprüfung und Zusammenfassung –, die im Logikkorpus nicht vorhanden sind. Bemerkenswerterweise zeigt es nach dem Training mit nur 5.000 Logikproblemen Generalisierungsfähigkeiten bei den anspruchsvollen Mathematik-Benchmarks AIME und AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of
rule-based reinforcement learning (RL) in large reasoning models. To analyze
reasoning dynamics, we use synthetic logic puzzles as training data due to
their controllable complexity and straightforward answer verification. We make
some key technical contributions that lead to effective and stable RL training:
a system prompt that emphasizes the thinking and answering process, a stringent
format reward function that penalizes outputs for taking shortcuts, and a
straightforward training recipe that achieves stable convergence. Our 7B model
develops advanced reasoning skills-such as reflection, verification, and
summarization-that are absent from the logic corpus. Remarkably, after training
on just 5K logic problems, it demonstrates generalization abilities to the
challenging math benchmarks AIME and AMC.Summary
AI-Generated Summary