SimpleRL-Zoo: Исследование и управление нулевым обучением с подкреплением для базовых моделей в открытой среде
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
March 24, 2025
Авторы: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI
Аннотация
DeepSeek-R1 продемонстрировал, что длинные цепочки рассуждений (CoT) могут естественным образом возникать в рамках простого обучения с подкреплением (RL) с использованием правил для начисления наград, где обучение может начинаться непосредственно с базовых моделей — подход, называемый нулевым обучением с подкреплением (zero RL training). Большинство недавних попыток воспроизведения нулевого обучения с подкреплением сосредоточены на серии моделей Qwen2.5, что может быть нерепрезентативным, так как мы обнаружили, что базовые модели уже обладают сильными способностями к выполнению инструкций и саморефлексии. В данной работе мы исследуем нулевое обучение с подкреплением на 10 разнообразных базовых моделях, охватывающих различные семейства и размеры, включая LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B и все модели Qwen2.5 от 0.5B до 32B. Используя несколько ключевых стратегий проектирования, таких как корректировка наград за формат и управление сложностью запросов, мы добились значительного улучшения как точности рассуждений, так и длины ответов в большинстве случаев. Однако, внимательно отслеживая динамику обучения, мы наблюдаем, что разные базовые модели демонстрируют различные паттерны в процессе обучения. Например, увеличение длины ответа не всегда коррелирует с появлением определенных когнитивных поведений, таких как проверка (т.е. "момент озарения"). Примечательно, что мы впервые наблюдаем "момент озарения" в небольших моделях, не относящихся к семейству Qwen. Мы делимся ключевыми решениями, которые позволяют успешно проводить нулевое обучение с подкреплением, а также нашими выводами и практиками. Для содействия дальнейшим исследованиям мы открываем исходный код, модели и инструменты анализа.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can
naturally emerge through a simple reinforcement learning (RL) framework with
rule-based rewards, where the training may directly start from the base
models-a paradigm referred to as zero RL training. Most recent efforts to
reproduce zero RL training have primarily focused on the Qwen2.5 model series,
which may not be representative as we find the base models already exhibit
strong instruction-following and self-reflection abilities. In this work, we
investigate zero RL training across 10 diverse base models, spanning different
families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B,
Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several
key design strategies-such as adjusting format reward and controlling query
difficulty-we achieve substantial improvements in both reasoning accuracy and
response length across most settings. However, by carefully monitoring the
training dynamics, we observe that different base models exhibit distinct
patterns during training. For instance, the increased response length does not
always correlate with the emergence of certain cognitive behaviors such as
verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for
the first time in small models not from the Qwen family. We share the key
designs that enable successful zero RL training, along with our findings and
practices. To facilitate further research, we open-source the code, models, and
analysis tools.Summary
AI-Generated Summary