大規模言語モデルの推論における強化学習の再考：クロスドメインの視点から

要旨

強化学習（Reinforcement Learning, RL）は、大規模言語モデル（Large Language Model, LLM）の推論能力を向上させる有望なアプローチとして注目を集めている。しかし、これまでのオープンな取り組みは主に数学やコードに焦点を当てており、一般的な推論への広範な適用性に関する理解が限られている。その主な課題は、多様な推論領域にわたる信頼性が高くスケーラブルなRL報酬信号の欠如にある。本研究では、Guruという92,000件の検証可能な例からなるRL推論コーパスを紹介する。このコーパスは、数学、コード、科学、論理、シミュレーション、表形式の6つの推論領域にまたがり、各領域ごとに報酬設計、重複排除、フィルタリングを経て構築され、RLトレーニングの信頼性と有効性を確保している。Guruに基づき、LLM推論におけるRLの既存の知見を体系的に再検証し、領域間で顕著な差異を観察した。例えば、先行研究ではRLが主に事前学習済みモデルから既存の知識を引き出すとされているが、我々の結果はより微妙なパターンを示している。事前学習中に頻繁に登場する領域（数学、コード、科学）では、クロスドメインRLトレーニングが容易に効果を発揮する一方で、事前学習での露出が限られている領域（論理、シミュレーション、表形式）では、有意な性能向上を達成するためにドメイン内トレーニングが必要であり、RLが真のスキル習得を促進する可能性が示唆される。最後に、Guru-7BとGuru-32Bという2つのモデルを提示する。これらは、公開されているデータを用いてRLトレーニングされたオープンモデルの中で最先端の性能を達成し、6つの推論領域にわたる17タスクの評価スイートにおいて、最良のベースラインをそれぞれ7.9%と6.7%上回った。また、我々のモデルは、特に事前学習データに現れにくい複雑なタスクにおいて、ベースモデルのPass@k性能を効果的に向上させることを示す。汎用推論を促進するため、データ、モデル、トレーニングおよび評価コードをhttps://github.com/LLM360/Reasoning360で公開する。

English

Reinforcement learning (RL) has emerged as a promising approach to improve large language model (LLM) reasoning, yet most open efforts focus narrowly on math and code, limiting our understanding of its broader applicability to general reasoning. A key challenge lies in the lack of reliable, scalable RL reward signals across diverse reasoning domains. We introduce Guru, a curated RL reasoning corpus of 92K verifiable examples spanning six reasoning domains--Math, Code, Science, Logic, Simulation, and Tabular--each built through domain-specific reward design, deduplication, and filtering to ensure reliability and effectiveness for RL training. Based on Guru, we systematically revisit established findings in RL for LLM reasoning and observe significant variation across domains. For example, while prior work suggests that RL primarily elicits existing knowledge from pretrained models, our results reveal a more nuanced pattern: domains frequently seen during pretraining (Math, Code, Science) easily benefit from cross-domain RL training, while domains with limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain training to achieve meaningful performance gains, suggesting that RL is likely to facilitate genuine skill acquisition. Finally, we present Guru-7B and Guru-32B, two models that achieve state-of-the-art performance among open models RL-trained with publicly available data, outperforming best baselines by 7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We also show that our models effectively improve the Pass@k performance of their base models, particularly on complex tasks less likely to appear in pretraining data. We release data, models, training and evaluation code to facilitate general-purpose reasoning at: https://github.com/LLM360/Reasoning360

大規模言語モデルの推論における強化学習の再考：クロスドメインの視点から

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

要旨

Support