ChatPaper.aiChatPaper

一般的大規模言語モデル推論のための尤度ベース報酬設計

Likelihood-Based Reward Designs for General LLM Reasoning

February 3, 2026
著者: Ariel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier
cs.AI

要旨

強化学習による大規模言語モデル(LLM)の推論ベンチマークへのファインチューニングでは、各ベンチマークに対してしばしば二値的な特定の報酬関数が必要となる。これには2つの潜在的な制限がある。すなわち、報酬設計の必要性と、二値報酬の潜在的にスパースな性質である。本研究では、参照回答(またはデータ内に存在する他のプロンプト継続)を生成する確率または対数確率に基づく報酬を体系的に調査する。この報酬は、特定の検証器に依存せず、大規模に利用可能であるという利点を持つ。最近のいくつかの研究(VeriFree、JEPO、RLPR、NOVERなど)は、同様の報酬の使用を提唱している。我々は、確率ベースの報酬の変種を標準的なベースラインと体系的に比較し、標準的な数学的推論ベンチマークと、外部検証器が利用できない長文回答の両方で性能を検証する。その結果、連鎖思考(CoT)学習の報酬として参照回答の対数確率を使用することが、全ての設定で良好に機能する唯一の選択肢であることを見出した。この報酬は、事前学習で使用される次トークン対数尤度損失とも整合性がとれている。検証可能な設定では、対数確率報酬は、標準的な二値報酬による強化学習と同等またはそれ以上の成功率をもたらし、はるかに優れたパープレキシティを達成する。検証不可能な設定では、SFTと同等の性能を発揮する。一方、VeriFreeのような確率ベースの手法は、正解を得る確率が消失するため、検証不可能な設定では性能が頭打ちとなる。全体として、これは対数確率報酬がCoTファインチューニングの有効な方法であり、短く検証可能な回答設定と長く検証不可能な回答設定を橋渡しするものであることを示している。
English
Fine-tuning large language models (LLMs) on reasoning benchmarks via reinforcement learning requires a specific reward function, often binary, for each benchmark. This comes with two potential limitations: the need to design the reward, and the potentially sparse nature of binary rewards. Here, we systematically investigate rewards derived from the probability or log-probability of emitting the reference answer (or any other prompt continuation present in the data), which have the advantage of not relying on specific verifiers and being available at scale. Several recent works have advocated for the use of similar rewards (e.g., VeriFree, JEPO, RLPR, NOVER). We systematically compare variants of likelihood-based rewards with standard baselines, testing performance both on standard mathematical reasoning benchmarks, and on long-form answers where no external verifier is available. We find that using the log-probability of the reference answer as the reward for chain-of-thought (CoT) learning is the only option that performs well in all setups. This reward is also consistent with the next-token log-likelihood loss used during pretraining. In verifiable settings, log-probability rewards bring comparable or better success rates than reinforcing with standard binary rewards, and yield much better perplexity. In non-verifiable settings, they perform on par with SFT. On the other hand, methods based on probability, such as VeriFree, flatline on non-verifiable settings due to vanishing probabilities of getting the correct answer. Overall, this establishes log-probability rewards as a viable method for CoT fine-tuning, bridging the short, verifiable and long, non-verifiable answer settings.
PDF70February 6, 2026