ChatPaper.aiChatPaper

既製LLMをプロセススコアラーとして:数学的推論におけるPRMの学習不要な代替

Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

June 1, 2026
著者: Atoosa Chegini, Soheil Feizi
cs.AI

要旨

複数の小規模モデルサンプルから、より強力なスコアラーを用いて最良の応答を選択するのは単純な推論時戦略であるが、小規模モデルがすでに誤った推論経路にコミットしている場合には失敗する。PRM誘導探索はこの問題を、生成中に候補の継続をスコアリングすることで回避するが、ステップレベルのラベルで学習された報酬モデルを必要とする。 本稿では、学習不要の代替手法として、既製の大規模言語モデルをプロセススコアラーとして用いるチャンクレベル誘導生成を提案する。各ステップにおいて、小規模モデルがk個の固定長候補チャンクをサンプリングし、大規模モデルがテキストを生成することなく尤度を用いて候補をスコアリングする。選択されたチャンクは次のステップの前に確定され、誤りが伝播する前に生成を誘導する。 この枠組みを二つの選択ルールで具体化する。1つは、長さ正規化された大規模モデルの対数確率が最大のチャンクを選択する尤度誘導選択(LGS)、もう1つは、小規模モデルの対数確率を差し引くことで、大規模モデルの選好が小規模モデルと乖離するチャンクを優先する対比誘導選択(CGS)である。大規模モデルの尤度を用いて可変長の推論ステップをスコアリングすることは、長さ正規化後も持続する体系的な長さバイアスにより信頼性が低く、固定長チャンクがこの交絡を回避することを示す。 GSM8K、MATH、Minerva Math、AMC23、AIME24において、Qwen2.5-1.5BをQwen2.5-32Bで誘導し、Llama-3.2-1BをLlama-3.1-70Bで誘導した場合、CGSは多数決投票を最大28ポイント上回り、同じ誘導予算の下では、報酬モデルの学習なしでほとんどのベンチマークにおいてQwen2.5-Math-PRM-72Bによる誘導探索と同等かそれ以上の性能を示す。Qwen2.5-7BをQwen2.5-72Bで誘導した場合、k=16でCGSはMATHにおいて81.8%、Minerva Mathにおいて63.6%に達し、多数決投票を4~6ポイント上回る。最後に、チャンクレベル誘導生成は、PRM誘導探索よりも大幅に短い推論トレースを生成する。
English
Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.