Logic-RL: Liberando el razonamiento de LLM con aprendizaje por refuerzo basado en reglas
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
February 20, 2025
Autores: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI
Resumen
Inspirados por el éxito de DeepSeek-R1, exploramos el potencial del aprendizaje por refuerzo basado en reglas (RL) en modelos de razonamiento a gran escala. Para analizar la dinámica del razonamiento, utilizamos acertijos lógicos sintéticos como datos de entrenamiento debido a su complejidad controlable y a la verificación directa de las respuestas. Realizamos contribuciones técnicas clave que conducen a un entrenamiento de RL efectivo y estable: un mensaje del sistema que enfatiza el proceso de pensamiento y respuesta, una función de recompensa de formato estricta que penaliza las salidas por tomar atajos, y una receta de entrenamiento sencilla que logra una convergencia estable. Nuestro modelo de 7B desarrolla habilidades avanzadas de razonamiento—como la reflexión, verificación y resumen—que están ausentes en el corpus lógico. Notablemente, después de entrenarse con solo 5K problemas lógicos, demuestra habilidades de generalización en los desafiantes benchmarks matemáticos AIME y AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of
rule-based reinforcement learning (RL) in large reasoning models. To analyze
reasoning dynamics, we use synthetic logic puzzles as training data due to
their controllable complexity and straightforward answer verification. We make
some key technical contributions that lead to effective and stable RL training:
a system prompt that emphasizes the thinking and answering process, a stringent
format reward function that penalizes outputs for taking shortcuts, and a
straightforward training recipe that achieves stable convergence. Our 7B model
develops advanced reasoning skills-such as reflection, verification, and
summarization-that are absent from the logic corpus. Remarkably, after training
on just 5K logic problems, it demonstrates generalization abilities to the
challenging math benchmarks AIME and AMC.Summary
AI-Generated Summary