Упущенный бесплатный обед от пост-тренировки: Преимущество прогресса для LLM-агентов

Аннотация

Модели вознаграждения за процесс позволяют проводить детальную оценку LLM на уровне отдельных шагов, однако их создание для агентных сред остаётся крайне сложной задачей: длительные горизонты взаимодействия, необратимые действия и стохастическая обратная связь от окружения делают как человеческую разметку, так и оценку методом Монте-Карло непрактичными в масштабе. В данной работе мы показываем, что пост-тренировка с подкреплением (RL) уже предоставляет необходимые компоненты для эффективной оценки на уровне шагов, устраняя потребность в отдельном обучении модели вознаграждения. Конкретно, мы выводим неявное преимущество в рамках общего стохастического марковского процесса принятия решений, которое называем *прогресс-преимуществом*: логарифмическое отношение вероятностей между политикой, обученной с помощью RL, и её референтной политикой в точности восстанавливает оптимальную функцию преимущества. Такая формулировка делает результирующий сигнал свободным от аннотаций, независимым от предметной области и доступным как побочный продукт стандартного конвейера пост-тренировки RL. Мы подтверждаем эффективность прогресс-преимущества в трёх различных приложениях: масштабировании на этапе тестирования, квантификации неопределённости и атрибуции ошибок на пяти бенчмарках и четырёх семействах моделей. Во всех сценариях оно стабильно превосходит базовые методы, основанные на уверенности, и, несмотря на отсутствие специализированного обучения на задачу, опережает специализированные обученные модели вознаграждения. Мы дополняем эти результаты более глубоким анализом характеристик прогресс-преимущества, предлагая практические рекомендации для его внедрения в реальные агентные системы.

English

Process reward models enable fine-grained, step-level evaluation of LLMs, yet building them for agentic settings remains prohibitively difficult: long-horizon interactions, irreversible actions, and stochastic environment feedback make both human annotation and Monte Carlo estimation infeasible at scale. In this work, we show that reinforcement learning (RL) post-training already provides the ingredients for effective step-level scoring, eliminating the need for dedicated reward model training altogether. Concretely, we derive an implicit advantage under a general stochastic Markov decision process, which we term progress advantage -- log-probability ratio between the RL-trained policy and its reference policy exactly recovers the optimal advantage function. This formulation makes the resulting signal annotation-free, domain-agnostic, and available as a byproduct of the standard RL post-training pipeline. We validate the effectiveness of the progress advantage across three different applications: test-time scaling, uncertainty quantification, and failure attribution on five benchmarks and four model families. Across all settings, it consistently outperforms confidence-based baselines and, despite requiring no task-specific training, surpasses dedicated trained reward models. We complement these results with deeper analyses on characteristics of progress advantage, offering practical guidance for adoption in real-world agentic systems.