GroundedPRM: Моделирование пошагового процесса вознаграждения с использованием дерева и учетом точности
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
October 16, 2025
Авторы: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI
Аннотация
Модели вознаграждения процессов (Process Reward Models, PRMs) направлены на улучшение многошагового рассуждения в крупных языковых моделях (Large Language Models, LLMs) путем контроля промежуточных шагов и выявления ошибок. Однако создание эффективных PRM остается сложной задачей из-за отсутствия масштабируемых и качественных аннотаций. Существующие подходы опираются на дорогостоящую ручную разметку, самооценку на основе LLM, которая склонна к галлюцинациям, или оценку методом Монте-Карло (MC), которая определяет качество шагов исключительно на основе конечных результатов и часто вносит шумное и несогласованное управление из-за неправильного распределения заслуг. Эти проблемы приводят к трем основным ограничениям: шумные вознаграждения, низкая фактическая достоверность и несогласованность с целями пошагового рассуждения. Для решения этих задач мы представляем GroundedPRM — структурированную и ориентированную на достоверность систему автоматического контроля процессов. Чтобы уменьшить шум вознаграждений и обеспечить детальное распределение заслуг, мы строим структурированные пути рассуждений с использованием метода поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS). Чтобы исключить галлюцинированное управление, мы проверяем каждый промежуточный шаг с помощью внешнего инструмента, предоставляя сигналы корректности, основанные на исполнении. Для объединения проверки на уровне шагов и глобальной оценки результатов мы разрабатываем гибридный механизм агрегации вознаграждений, который объединяет проверку на основе инструментов с обратной связью, полученной от MCTS. Наконец, мы форматируем сигнал вознаграждения в генеративную структуру, усиленную обоснованиями, чтобы повысить интерпретируемость и совместимость с LLM, настроенными на инструкции. GroundedPRM обучается на всего 40 тыс. автоматически размеченных образцов, что составляет лишь 10% данных, используемых лучшей PRM, обученной с автоматической разметкой. Тем не менее, она достигает относительного улучшения средней производительности на ProcessBench до 26%. При использовании для поиска с жадным вознаграждением GroundedPRM превосходит даже PRM, обученные с ручной разметкой, предлагая масштабируемый и проверяемый путь к высококачественному процессуальному рассуждению.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large
Language Models (LLMs) by supervising intermediate steps and identifying
errors. However, building effective PRMs remains challenging due to the lack of
scalable, high-quality annotations. Existing approaches rely on costly human
labeling, LLM-based self-evaluation that is prone to hallucination, or Monte
Carlo (MC) estimation, which infers step quality solely from rollout outcomes
and often introduces noisy, misaligned supervision due to credit
misattribution. These issues result in three core limitations: noisy rewards,
low factual fidelity, and misalignment with step-level reasoning objectives. To
address these challenges, we introduce GroundedPRM, a tree-guided and
fidelity-aware framework for automatic process supervision. To reduce reward
noise and enable fine-grained credit assignment, we construct structured
reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated
supervision, we validate each intermediate step using an external tool,
providing execution-grounded correctness signals. To combine both step-level
validation and global outcome assessment, we design a hybrid reward aggregation
mechanism that fuses tool-based verification with MCTS-derived feedback.
Finally, we format the reward signal into a rationale-enhanced, generative
structure to promote interpretability and compatibility with instruction-tuned
LLMs. GroundedPRM is trained on only 40K automatically labeled samples,
amounting to just 10% of the data used by the best-performing PRM trained with
auto-labeled supervision. Nevertheless, it achieves up to a 26% relative
improvement in average performance on ProcessBench. When used for reward-guided
greedy search, GroundedPRM outperforms even PRMs trained with human-labeled
supervision, offering a scalable and verifiable path toward high-quality
process-level reasoning.