Het Heroverwegen van Reinforcement Learning voor LLM-redenering vanuit een Domeinoverschrijdend Perspectief
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
June 17, 2025
Auteurs: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Yutao Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan Li, Richard Fan, Jianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
cs.AI
Samenvatting
Reinforcement learning (RL) is naar voren gekomen als een veelbelovende aanpak om het redeneervermogen van grote taalmodellen (LLM's) te verbeteren, maar de meeste open initiatieven richten zich vooral op wiskunde en code, wat ons begrip van de bredere toepasbaarheid op algemeen redeneren beperkt. Een belangrijke uitdaging ligt in het gebrek aan betrouwbare, schaalbare RL-beloningssignalen over diverse redeneerdomeinen. Wij introduceren Guru, een gecureerde RL-redeneercorpus van 92K verifieerbare voorbeelden die zes redeneerdomeinen beslaan—Wiskunde, Code, Wetenschap, Logica, Simulatie en Tabelgegevens—elk opgebouwd via domeinspecifiek beloningsontwerp, deduplicatie en filtering om betrouwbaarheid en effectiviteit voor RL-training te waarborgen. Op basis van Guru onderzoeken we systematisch gevestigde bevindingen in RL voor LLM-redenering en observeren we aanzienlijke variatie tussen domeinen. Terwijl eerder werk suggereert dat RL voornamelijk bestaande kennis uit vooraf getrainde modellen naar voren haalt, laten onze resultaten een genuanceerder patroon zien: domeinen die vaak tijdens de voorafgaande training zijn gezien (Wiskunde, Code, Wetenschap) profiteren gemakkelijk van cross-domein RL-training, terwijl domeinen met beperkte blootstelling tijdens de voorafgaande training (Logica, Simulatie en Tabelgegevens) domeinspecifieke training vereisen om betekenisvolle prestatieverbeteringen te bereiken, wat suggereert dat RL waarschijnlijk echte vaardigheidsverwerving faciliteert. Ten slotte presenteren we Guru-7B en Guru-32B, twee modellen die state-of-the-art prestaties behalen onder open modellen die RL-getraind zijn met publiek beschikbare data, en die de beste baseline-modellen overtreffen met respectievelijk 7,9% en 6,7% op onze evaluatiesuite van 17 taken over zes redeneerdomeinen. We laten ook zien dat onze modellen de Pass@k-prestaties van hun basismodellen effectief verbeteren, vooral bij complexe taken die minder waarschijnlijk in voorafgaande trainingsdata voorkomen. We maken data, modellen, trainings- en evaluatiecode beschikbaar om algemeen redeneren te faciliteren op: https://github.com/LLM360/Reasoning360.
English
Reinforcement learning (RL) has emerged as a promising approach to improve
large language model (LLM) reasoning, yet most open efforts focus narrowly on
math and code, limiting our understanding of its broader applicability to
general reasoning. A key challenge lies in the lack of reliable, scalable RL
reward signals across diverse reasoning domains. We introduce Guru, a curated
RL reasoning corpus of 92K verifiable examples spanning six reasoning
domains--Math, Code, Science, Logic, Simulation, and Tabular--each built
through domain-specific reward design, deduplication, and filtering to ensure
reliability and effectiveness for RL training. Based on Guru, we systematically
revisit established findings in RL for LLM reasoning and observe significant
variation across domains. For example, while prior work suggests that RL
primarily elicits existing knowledge from pretrained models, our results reveal
a more nuanced pattern: domains frequently seen during pretraining (Math, Code,
Science) easily benefit from cross-domain RL training, while domains with
limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain
training to achieve meaningful performance gains, suggesting that RL is likely
to facilitate genuine skill acquisition. Finally, we present Guru-7B and
Guru-32B, two models that achieve state-of-the-art performance among open
models RL-trained with publicly available data, outperforming best baselines by
7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We
also show that our models effectively improve the Pass@k performance of their
base models, particularly on complex tasks less likely to appear in pretraining
data. We release data, models, training and evaluation code to facilitate
general-purpose reasoning at: https://github.com/LLM360/Reasoning360