ChatPaper.aiChatPaper

長さのスケーリングを超えて:生成的報酬モデルのための広さと深さの相乗効果

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

March 2, 2026
著者: Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma
cs.AI

要旨

生成報酬モデル(GRM)における最近の進歩は、Chain-of-Thought(CoT)推論の長さをスケーリングすることが評価の信頼性を大幅に向上させることを実証している。しかし、現在の研究は主に非構造的な長さスケーリングに依存しており、異なる推論メカニズムの有効性の差異を見落としている:Breadth-CoT(B-CoT、すなわち多次元的な原理網羅性)とDepth-CoT(D-CoT、すなわち実質的な判断の健全性)である。この問題に対処するため、我々はMix-GRMを提案する。これは、モジュラー合成パイプラインを通じて生の推論過程を構造化されたB-CoTとD-CoTに再構成し、その後、教師ありファインチューニング(SFT)と検証可能な報酬を用いた強化学習(RLVR)を適用してこれらのメカニズムを内部化・最適化するフレームワークである。包括的な実験により、Mix-GRMが5つのベンチマークで新たなstate-of-the-artを確立し、主要なオープンソースRMを平均8.2%上回ることを実証した。我々の結果は、推論メカニズムに明確な分化があることを明らかにしている:B-CoTは主観的選好タスクに有効であるのに対し、D-CoTは客観的正解性タスクで優位性を示す。したがって、推論メカニズムとタスクの不一致は性能を直接低下させる。さらに、RLVRがスイッチング増幅器として機能し、モデルがタスク要求に応じて推論スタイルを自発的に割り当てるという創発的分極を誘導することを示す。合成データとモデルはhttps://huggingface.co/collections/DonJoey/mix-grmで、コードはhttps://github.com/Don-Joey/Mix-GRMで公開されている。
English
Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, and the code is released at https://github.com/Don-Joey/Mix-GRM{Github}.
PDF332May 8, 2026