ChatPaper.aiChatPaper

GroundedPRM: Modellazione del Processo di Ricompensa Guidata da Alberi e Consapevole della Fedeltà per il Ragionamento a Livello di Passo

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

October 16, 2025
Autori: Yao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp
cs.AI

Abstract

I Modelli di Ricompensa per Processi (PRM) mirano a migliorare il ragionamento multi-step nei Modelli Linguistici di Grande Scala (LLM) supervisionando i passaggi intermedi e identificando gli errori. Tuttavia, costruire PRM efficaci rimane una sfida a causa della mancanza di annotazioni scalabili e di alta qualità. Gli approcci esistenti si basano su costose etichettature umane, su autovalutazioni basate su LLM che sono soggette a allucinazioni, o su stime Monte Carlo (MC), che inferiscono la qualità dei passaggi esclusivamente dai risultati finali e spesso introducono una supervisione rumorosa e disallineata a causa di un'errata attribuzione del merito. Questi problemi portano a tre limitazioni principali: ricompense rumorose, bassa fedeltà fattuale e disallineamento con gli obiettivi di ragionamento a livello di passaggio. Per affrontare queste sfide, introduciamo GroundedPRM, un framework guidato da alberi e consapevole della fedeltà per la supervisione automatica dei processi. Per ridurre il rumore nelle ricompense e consentire un'assegnazione del merito granulare, costruiamo percorsi di ragionamento strutturati tramite la Ricerca ad Albero Monte Carlo (MCTS). Per eliminare la supervisione allucinata, convalidiamo ogni passaggio intermedio utilizzando uno strumento esterno, fornendo segnali di correttezza basati sull'esecuzione. Per combinare sia la validazione a livello di passaggio che la valutazione globale del risultato, progettiamo un meccanismo di aggregazione delle ricompense ibrido che fonde la verifica basata su strumenti con il feedback derivato da MCTS. Infine, formattiamo il segnale di ricompensa in una struttura generativa arricchita da razionali per promuovere l'interpretabilità e la compatibilità con LLM ottimizzati per le istruzioni. GroundedPRM viene addestrato su soli 40K campioni etichettati automaticamente, pari a solo il 10% dei dati utilizzati dal PRM con le migliori prestazioni addestrato con supervisione auto-etichettata. Nonostante ciò, ottiene un miglioramento relativo fino al 26% nella performance media su ProcessBench. Quando utilizzato per la ricerca avida guidata dalle ricompense, GroundedPRM supera persino i PRM addestrati con supervisione etichettata da esseri umani, offrendo un percorso scalabile e verificabile verso un ragionamento di alta qualità a livello di processo.
English
Process Reward Models (PRMs) aim to improve multi-step reasoning in Large Language Models (LLMs) by supervising intermediate steps and identifying errors. However, building effective PRMs remains challenging due to the lack of scalable, high-quality annotations. Existing approaches rely on costly human labeling, LLM-based self-evaluation that is prone to hallucination, or Monte Carlo (MC) estimation, which infers step quality solely from rollout outcomes and often introduces noisy, misaligned supervision due to credit misattribution. These issues result in three core limitations: noisy rewards, low factual fidelity, and misalignment with step-level reasoning objectives. To address these challenges, we introduce GroundedPRM, a tree-guided and fidelity-aware framework for automatic process supervision. To reduce reward noise and enable fine-grained credit assignment, we construct structured reasoning paths via Monte Carlo Tree Search (MCTS). To eliminate hallucinated supervision, we validate each intermediate step using an external tool, providing execution-grounded correctness signals. To combine both step-level validation and global outcome assessment, we design a hybrid reward aggregation mechanism that fuses tool-based verification with MCTS-derived feedback. Finally, we format the reward signal into a rationale-enhanced, generative structure to promote interpretability and compatibility with instruction-tuned LLMs. GroundedPRM is trained on only 40K automatically labeled samples, amounting to just 10% of the data used by the best-performing PRM trained with auto-labeled supervision. Nevertheless, it achieves up to a 26% relative improvement in average performance on ProcessBench. When used for reward-guided greedy search, GroundedPRM outperforms even PRMs trained with human-labeled supervision, offering a scalable and verifiable path toward high-quality process-level reasoning.
PDF12October 17, 2025