ChatPaper.aiChatPaper

Logic-RL: Sfruttare il Ragionamento dei Modelli Linguistici con Apprendimento per Rinforzo Basato su Regole

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

February 20, 2025
Autori: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI

Abstract

Ispirati dal successo di DeepSeek-R1, esploriamo il potenziale dell'apprendimento per rinforzo basato su regole (RL) nei modelli di ragionamento su larga scala. Per analizzare le dinamiche del ragionamento, utilizziamo enigmi logici sintetici come dati di addestramento grazie alla loro complessità controllabile e alla verifica diretta delle risposte. Apportiamo alcuni contributi tecnici chiave che portano a un addestramento RL efficace e stabile: un prompt di sistema che enfatizza il processo di pensiero e risposta, una funzione di ricompensa basata su un formato rigoroso che penalizza le uscite che prendono scorciatoie, e una procedura di addestramento semplice che garantisce una convergenza stabile. Il nostro modello da 7B sviluppa abilità di ragionamento avanzate—come riflessione, verifica e sintesi—che sono assenti nel corpus logico. In modo notevole, dopo l'addestramento su soli 5K problemi logici, dimostra capacità di generalizzazione sui benchmark matematici impegnativi AIME e AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in large reasoning models. To analyze reasoning dynamics, we use synthetic logic puzzles as training data due to their controllable complexity and straightforward answer verification. We make some key technical contributions that lead to effective and stable RL training: a system prompt that emphasizes the thinking and answering process, a stringent format reward function that penalizes outputs for taking shortcuts, and a straightforward training recipe that achieves stable convergence. Our 7B model develops advanced reasoning skills-such as reflection, verification, and summarization-that are absent from the logic corpus. Remarkably, after training on just 5K logic problems, it demonstrates generalization abilities to the challenging math benchmarks AIME and AMC.

Summary

AI-Generated Summary

PDF485February 21, 2025