Logic-RL: Раскрытие способностей к рассуждению в больших языковых моделях с помощью обучения с подкреплением на основе правил
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
February 20, 2025
Авторы: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
cs.AI
Аннотация
Вдохновленные успехом DeepSeek-R1, мы исследуем потенциал обучения с подкреплением (RL), основанного на правилах, в крупных моделях логического рассуждения. Для анализа динамики рассуждений мы используем синтетические логические головоломки в качестве обучающих данных благодаря их контролируемой сложности и простой проверке ответов. Мы вносим несколько ключевых технических вкладов, которые способствуют эффективному и стабильному обучению RL: системный запрос, акцентирующий внимание на процессе мышления и ответа, строгая функция вознаграждения за формат, которая штрафует выводы за использование упрощенных подходов, и простая методика обучения, обеспечивающая стабильную сходимость. Наша модель на 7 миллиардов параметров развивает продвинутые навыки рассуждения, такие как рефлексия, проверка и обобщение, которые отсутствуют в логическом корпусе. Примечательно, что после обучения всего на 5 тысячах логических задач она демонстрирует способность к обобщению на сложных математических тестах AIME и AMC.
English
Inspired by the success of DeepSeek-R1, we explore the potential of
rule-based reinforcement learning (RL) in large reasoning models. To analyze
reasoning dynamics, we use synthetic logic puzzles as training data due to
their controllable complexity and straightforward answer verification. We make
some key technical contributions that lead to effective and stable RL training:
a system prompt that emphasizes the thinking and answering process, a stringent
format reward function that penalizes outputs for taking shortcuts, and a
straightforward training recipe that achieves stable convergence. Our 7B model
develops advanced reasoning skills-such as reflection, verification, and
summarization-that are absent from the logic corpus. Remarkably, after training
on just 5K logic problems, it demonstrates generalization abilities to the
challenging math benchmarks AIME and AMC.Summary
AI-Generated Summary