Переосмысление обучения с подкреплением для рассуждений в крупных языковых моделях с кросс-доменной перспективы
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
June 17, 2025
Авторы: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Аннотация
Обучение с подкреплением (RL) стало перспективным подходом для улучшения способности крупных языковых моделей (LLM) к рассуждению, однако большинство открытых исследований сосредоточено узко на математике и программировании, что ограничивает наше понимание его более широкой применимости к общим задачам рассуждения. Основная проблема заключается в отсутствии надежных и масштабируемых сигналов вознаграждения RL в различных областях рассуждений. Мы представляем Guru — тщательно отобранный корпус данных для RL, содержащий 92 тыс. проверяемых примеров, охватывающих шесть областей рассуждений: математику, программирование, науку, логику, моделирование и табличные данные. Каждая область построена с использованием специфичного для домена дизайна вознаграждения, дедупликации и фильтрации для обеспечения надежности и эффективности при обучении RL. На основе Guru мы систематически пересматриваем установленные выводы в области RL для рассуждений LLM и наблюдаем значительные различия между доменами. Например, хотя предыдущие работы предполагают, что RL в основном извлекает уже имеющиеся знания из предварительно обученных моделей, наши результаты показывают более сложную картину: домены, часто встречающиеся в предварительном обучении (математика, программирование, наука), легко выигрывают от кросс-доменного обучения RL, тогда как домены с ограниченным воздействием в предварительном обучении (логика, моделирование и табличные данные) требуют внутридоменного обучения для достижения значимых улучшений производительности, что указывает на то, что RL, вероятно, способствует реальному приобретению навыков. Наконец, мы представляем Guru-7B и Guru-32B — две модели, которые достигают наилучших результатов среди открытых моделей, обученных RL на общедоступных данных, превосходя лучшие базовые модели на 7,9% и 6,7% в нашем наборе из 17 задач, охватывающих шесть областей рассуждений. Мы также показываем, что наши модели эффективно улучшают показатели Pass@k своих базовых моделей, особенно на сложных задачах, которые реже встречаются в данных предварительного обучения. Мы публикуем данные, модели, код для обучения и оценки, чтобы способствовать развитию общих способностей к рассуждению по адресу: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve
large language model (LLM) reasoning, yet most open efforts focus narrowly on
math and code, limiting our understanding of its broader applicability to
general reasoning. A key challenge lies in the lack of reliable, scalable RL
reward signals across diverse reasoning domains. We introduce Guru, a curated
RL reasoning corpus of 92K verifiable examples spanning six reasoning
domains--Math, Code, Science, Logic, Simulation, and Tabular--each built
through domain-specific reward design, deduplication, and filtering to ensure
reliability and effectiveness for RL training. Based on Guru, we systematically
revisit established findings in RL for LLM reasoning and observe significant
variation across domains. For example, while prior work suggests that RL
primarily elicits existing knowledge from pretrained models, our results reveal
a more nuanced pattern: domains frequently seen during pretraining (Math, Code,
Science) easily benefit from cross-domain RL training, while domains with
limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain
training to achieve meaningful performance gains, suggesting that RL is likely
to facilitate genuine skill acquisition. Finally, we present Guru-7B and
Guru-32B, two models that achieve state-of-the-art performance among open
models RL-trained with publicly available data, outperforming best baselines by
7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We
also show that our models effectively improve the Pass@k performance of their
base models, particularly on complex tasks less likely to appear in pretraining
data. We release data, models, training and evaluation code to facilitate
general-purpose reasoning at: https://github.com/LLM360/Reasoning360