ポストトレーニングから見逃されたフリーランチ:LLMエージェントの進行上の利点
Neglected Free Lunch from Post-training: Progress Advantage for LLM Agents
June 24, 2026
著者: Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh, Tanwi Mallick, Sharon Li
cs.AI
要旨
プロセス報酬モデルは、LLMの細粒度なステップレベルの評価を可能にするが、それをエージェント的設定で構築することは依然として極めて困難である。長期的インタラクション、不可逆なアクション、確率的環境フィードバックにより、人間によるアノテーションとモンテカルロ推定の両方を大規模に実行することが不可能になるからである。本研究では、強化学習(RL)のポストトレーニングが、効果的なステップレベルスコアリングのための要素をすでに提供しており、専用の報酬モデルトレーニングを全く不要にすることを示す。具体的には、一般的な確率的マルコフ決定過程の下で暗黙的アドバンテージを導出し、これをプログレスアドバンテージと呼ぶ。RL訓練されたポリシーとその参照ポリシーとの間の対数確率比が、最適なアドバンテージ関数を正確に再現する。この定式化により、得られる信号はアノテーション不要、ドメイン非依存となり、標準的なRLポストトレーニングパイプラインの副産物として利用可能になる。我々は、プログレスアドバンテージの有効性を、5つのベンチマークと4つのモデルファミリーにおいて、テスト時スケーリング、不確実性定量化、失敗帰属という3つの異なるアプリケーションで検証する。すべての設定において、信頼度ベースのベースラインを一貫して上回り、タスク固有のトレーニングを必要としないにもかかわらず、専用の訓練済み報酬モデルを凌駕する。これらの結果を補完するために、プログレスアドバンテージの特性に関するより深い分析を行い、現実世界のエージェントシステムでの採用に向けた実践的なガイダンスを提供する。
English
Process reward models enable fine-grained, step-level evaluation of LLMs, yet building them for agentic settings remains prohibitively difficult: long-horizon interactions, irreversible actions, and stochastic environment feedback make both human annotation and Monte Carlo estimation infeasible at scale. In this work, we show that reinforcement learning (RL) post-training already provides the ingredients for effective step-level scoring, eliminating the need for dedicated reward model training altogether. Concretely, we derive an implicit advantage under a general stochastic Markov decision process, which we term progress advantage -- log-probability ratio between the RL-trained policy and its reference policy exactly recovers the optimal advantage function. This formulation makes the resulting signal annotation-free, domain-agnostic, and available as a byproduct of the standard RL post-training pipeline. We validate the effectiveness of the progress advantage across three different applications: test-time scaling, uncertainty quantification, and failure attribution on five benchmarks and four model families. Across all settings, it consistently outperforms confidence-based baselines and, despite requiring no task-specific training, surpasses dedicated trained reward models. We complement these results with deeper analyses on characteristics of progress advantage, offering practical guidance for adoption in real-world agentic systems.