AdaptiveStep: Divisione Automatica dei Passaggi di Ragionamento attraverso la Fiducia del Modello

Abstract

Gli approcci attuali per l'addestramento dei Modelli di Ricompensa per Processi (PRM) spesso prevedono la suddivisione delle risposte in più passaggi di ragionamento utilizzando tecniche basate su regole, come l'uso di token segnaposto predefiniti o l'impostazione della lunghezza del passaggio di ragionamento su una dimensione fissa. Questi approcci trascurano il fatto che parole specifiche non contrassegnano tipicamente i veri punti decisionali in un testo. Per affrontare questo problema, proponiamo AdaptiveStep, un metodo che divide i passaggi di ragionamento in base alla confidenza del modello nel prevedere la parola successiva. Questo metodo di divisione fornisce maggiori informazioni decisionali ad ogni passaggio, migliorando i compiti a valle, come l'apprendimento del modello di ricompensa. Inoltre, il nostro metodo non richiede annotazioni manuali. Ne dimostriamo l'efficacia attraverso esperimenti con PRM addestrati con AdaptiveStep in compiti di ragionamento matematico e generazione di codice. I risultati sperimentali indicano che il PRM risultante raggiunge prestazioni Best-of-N all'avanguardia, superando la strategia di ricerca greedy con decodifica guidata dal valore a livello di token, riducendo al contempo i costi di costruzione di oltre il 30% rispetto ai PRM open-source esistenti. Inoltre, forniamo un'analisi approfondita e uno studio di caso sulle prestazioni, trasferibilità e capacità di generalizzazione del PRM.

English

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

AdaptiveStep: Divisione Automatica dei Passaggi di Ragionamento attraverso la Fiducia del Modello

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Abstract

Support