Logic-RL: Liberando o Raciocínio de LLMs com Aprendizado por Reforço Baseado em Regras
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
February 20, 2025
Autores: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI
Resumo
Inspirados pelo sucesso do DeepSeek-R1, exploramos o potencial do aprendizado por reforço baseado em regras (RL) em modelos de raciocínio em larga escala. Para analisar a dinâmica do raciocínio, utilizamos quebra-cabeças lógicos sintéticos como dados de treinamento devido à sua complexidade controlável e verificação direta das respostas. Realizamos algumas contribuições técnicas fundamentais que levam a um treinamento de RL eficaz e estável: um prompt de sistema que enfatiza o processo de pensamento e resposta, uma função de recompensa de formato rigorosa que penaliza saídas por atalhos, e uma receita de treinamento direta que alcança convergência estável. Nosso modelo de 7B desenvolve habilidades avançadas de raciocínio—como reflexão, verificação e sumarização—que estão ausentes do corpus lógico. Notavelmente, após o treinamento em apenas 5 mil problemas lógicos, ele demonstra habilidades de generalização para os desafiadores benchmarks matemáticos AIME e AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of
rule-based reinforcement learning (RL) in large reasoning models. To analyze
reasoning dynamics, we use synthetic logic puzzles as training data due to
their controllable complexity and straightforward answer verification. We make
some key technical contributions that lead to effective and stable RL training:
a system prompt that emphasizes the thinking and answering process, a stringent
format reward function that penalizes outputs for taking shortcuts, and a
straightforward training recipe that achieves stable convergence. Our 7B model
develops advanced reasoning skills-such as reflection, verification, and
summarization-that are absent from the logic corpus. Remarkably, after training
on just 5K logic problems, it demonstrates generalization abilities to the
challenging math benchmarks AIME and AMC.Summary
AI-Generated Summary