ChatPaper.aiChatPaper

マルチドメインテストタイムスケーリングのための報酬モデルの再考

Rethinking Reward Models for Multi-Domain Test-Time Scaling

October 1, 2025
著者: Dong Bok Lee, Seanie Lee, Sangwoo Park, Minki Kang, Jinheon Baek, Dongki Kim, Dominik Wagner, Jiongdao Jin, Heejun Lee, Tobias Bocklet, Jinyu Wang, Jingjing Fu, Sung Ju Hwang, Jiang Bia, Lei Song
cs.AI

要旨

大規模言語モデル(LLM)のテスト時スケーリングにおける信頼性は、正しい推論と誤った論理を区別する外部検証器や報酬モデルによって評価されることが多い。従来の研究では、中間推論ステップごとにスコアを付与するプロセス報酬モデル(PRM)が、最終的な答えのみを評価するアウトカム報酬モデル(ORM)を上回ると一般的に考えられてきた。この見解は主に、数学に近い狭い領域からの証拠に基づいている。本研究では、14の多様な領域にわたって、識別型ORMとPRM(\DisORM、\DisPRM)および生成型ORMとPRM(\GenORM、\GenPRM)という4つの報酬モデルのバリエーションを初めて統一的に評価した。従来の通説に反し、以下の結果が得られた:(i) \DisORMは\DisPRMと同等の性能を示す、(ii) \GenPRMは競争力がない、(iii) 全体として、\GenORMが最も堅牢であり、すべてのテスト領域で有意かつ一貫した向上をもたらす。この結果は、PRM形式のステップごとのスコアリングが、LLMの自動ラベリングからラベルノイズを継承し、自己修正を含む長い推論軌跡を評価するのが困難であることに起因すると考えられる。理論的分析では、推論の長さが増すにつれてエラーが累積することが示され、実証的観察もこの効果を裏付けている。これらの知見は、細かい監視が常に優れているという一般的な前提に疑問を投げかけ、多領域展開における生成型アウトカム検証を支持するものである。今後の多領域設定における研究を促進するため、コード、データセット、およびチェックポイントをhttps://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}}で公開している。
English
The reliability of large language models (LLMs) during test-time scaling is often assessed with external verifiers or reward models that distinguish correct reasoning from flawed logic. Prior work generally assumes that process reward models (PRMs), which score every intermediate reasoning step, outperform outcome reward models (ORMs) that assess only the final answer. This view is based mainly on evidence from narrow, math-adjacent domains. We present the first unified evaluation of four reward model variants, discriminative ORM and PRM (\DisORM, \DisPRM) and generative ORM and PRM (\GenORM, \GenPRM), across 14 diverse domains. Contrary to conventional wisdom, we find that (i) \DisORM performs on par with \DisPRM, (ii) \GenPRM is not competitive, and (iii) overall, \GenORM is the most robust, yielding significant and consistent gains across every tested domain. We attribute this to PRM-style stepwise scoring, which inherits label noise from LLM auto-labeling and has difficulty evaluating long reasoning trajectories, including those involving self-correcting reasoning. Our theoretical analysis shows that step-wise aggregation compounds errors as reasoning length grows, and our empirical observations confirm this effect. These findings challenge the prevailing assumption that fine-grained supervision is always better and support generative outcome verification for multi-domain deployment. We publicly release our code, datasets, and checkpoints at https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}} to facilitate future research in multi-domain settings.
PDF282February 7, 2026