一つのドメインが他のドメインを助けられるか?強化学習によるマルチドメイン推論に関するデータ中心の研究
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning
July 23, 2025
著者: Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化するための有力なパラダイムとして登場しました。既存の研究は、数学的問題解決、コーディングタスク、論理的推論といった個別の推論領域に主に焦点を当ててきました。しかし、現実世界の推論シナリオでは、複数の認知スキルを統合的に適用することが本質的に求められます。それにもかかわらず、強化学習下でのこれらの推論スキル間の相互作用は十分に理解されていません。このギャップを埋めるため、我々はRLVRフレームワーク内での多領域推論に関する体系的な調査を提示し、特に数学的推論、コード生成、論理パズル解決という3つの主要領域に焦点を当てます。本研究は以下の4つの主要な構成要素を含む包括的な調査を行います:(1) GRPOアルゴリズムとQwen-2.5-7Bモデルファミリーを活用し、単一領域のデータセットで訓練されたモデルの領域内での改善と領域間の汎化能力を徹底的に評価します。(2) さらに、複数の領域を組み合わせた訓練中に生じる相互の強化や競合といった複雑な相互作用を検証します。(3) SFT(Supervised Fine-Tuning)が強化学習に与える影響を理解するため、同一のRL設定下でのベースモデルと指示モデルの性能差を分析・比較します。(4) また、カリキュラム学習戦略、報酬設計のバリエーション、言語固有の要因といった重要なRL訓練の詳細に深く踏み込み、それらの影響を体系的に探ります。広範な実験を通じて、我々の結果は領域間の相互作用を支配するダイナミクスに関する重要な洞察を提供し、専門的かつ汎用的な推論性能に影響を与える主要な要因を明らかにします。これらの知見は、LLMの包括的な多領域推論能力を育むためのRL手法の最適化に貴重な指針を提供します。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
powerful paradigm for enhancing the reasoning capabilities of LLMs. Existing
research has predominantly concentrated on isolated reasoning domains such as
mathematical problem-solving, coding tasks, or logical reasoning. However, real
world reasoning scenarios inherently demand an integrated application of
multiple cognitive skills. Despite this, the interplay among these reasoning
skills under reinforcement learning remains poorly understood. To bridge this
gap, we present a systematic investigation of multi-domain reasoning within the
RLVR framework, explicitly focusing on three primary domains: mathematical
reasoning, code generation, and logical puzzle solving. We conduct a
comprehensive study comprising four key components: (1) Leveraging the GRPO
algorithm and the Qwen-2.5-7B model family, our study thoroughly evaluates the
models' in-domain improvements and cross-domain generalization capabilities
when trained on single-domain datasets. (2) Additionally, we examine the
intricate interactions including mutual enhancements and conflicts that emerge
during combined cross-domain training. (3) To further understand the influence
of SFT on RL, we also analyze and compare performance differences between base
and instruct models under identical RL configurations. (4) Furthermore, we
delve into critical RL training details, systematically exploring the impacts
of curriculum learning strategies, variations in reward design, and
language-specific factors. Through extensive experiments, our results offer
significant insights into the dynamics governing domain interactions, revealing
key factors influencing both specialized and generalizable reasoning
performance. These findings provide valuable guidance for optimizing RL
methodologies to foster comprehensive, multi-domain reasoning capabilities in
LLMs.