大規模推論モデルの効果的強化学習を実現するための適応的能力分解
Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning
January 31, 2026
著者: Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる大きな可能性を示している。しかし、RLVRプロセスで提供される情報量が限られているため、モデルはほぼ盲目的な探索しか行えず、困難な問題では失敗することが多い。教師モデルに依存せずにRLVRプロセスに追加情報を提供するため、我々はRLVRの効果を高める適応的能力分解手法A^2Dを提案する。具体的には、まず蒸留なしのRLVRによって分解器を訓練し、複雑な問題をより単純な副問題の集合へ分解できるようにする。次に、この分解器を用いて訓練データセットの各問題に対して副問題を注釈付けし、副問題の指導付きRLVRで推論器を訓練する。A^2Dの理解を深めるため、まず競合するベースラインとの性能比較を行い、その有効性を示す。次に、本手法が異なるRLVRアルゴリズムに適用可能なプラグ・アンド・プレイモジュールとして機能することを確認する。さらに、分解器の分析を通じて、RLVRプロセスがその性能と挙動にどのように影響するか、またどのタイプの指導が推論器の探索・利用能力の向上により適しているかを明らかにする。
English
Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.