StepWiser: 段階的生成型判断による賢明な推論
StepWiser: Stepwise Generative Judges for Wiser Reasoning
August 26, 2025
著者: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar
cs.AI
要旨
モデルが複雑な問題を解決するために多段階の推論戦略を活用するにつれて、これらの中間ステップの論理的妥当性を監督することが重要な研究課題となっている。プロセス報酬モデルは、ステップバイステップのフィードバックを提供することでこの課題に対処するが、現在のアプローチには2つの主要な欠点がある。それらは通常、説明を提供せずに分類器として機能し、静的なデータセットを用いた教師ありファインチューニングに依存しているため、一般化が制限される。最近の進展に触発され、我々は段階的報酬モデリングを分類タスクから推論タスクそのものとして再構築する。そこで、ポリシーモデルの推論ステップ(すなわち、メタ推論)について推論し、最終的な判断を下す前に思考トークンを出力する生成的判断モデルを提案する。我々のモデル、StepWiserは、ロールアウトの相対的な結果を用いた強化学習によって訓練される。我々は、このモデルが(i)既存の手法よりも中間ステップにおける判断精度が高いこと、(ii)訓練時にポリシーモデルを改善するために使用できること、(iii)推論時の検索を改善することを示す。
English
As models increasingly leverage multi-step reasoning strategies to solve
complex problems, supervising the logical validity of these intermediate steps
has become a critical research challenge. Process reward models address this by
providing step-by-step feedback, but current approaches have two major
drawbacks: they typically function as classifiers without providing
explanations, and their reliance on supervised fine-tuning with static datasets
limits generalization. Inspired by recent advances, we reframe stepwise reward
modeling from a classification task to a reasoning task itself. We thus propose
a generative judge that reasons about the policy model's reasoning steps (i.e.,
meta-reasons), outputting thinking tokens before delivering a final verdict.
Our model, StepWiser, is trained by reinforcement learning using relative
outcomes of rollouts. We show it provides (i) better judgment accuracy on
intermediate steps than existing methods; (ii) can be used to improve the
policy model at training time; and (iii) improves inference-time search.