AdaptiveStep: Divisione Automatica dei Passaggi di Ragionamento attraverso la Fiducia del Modello
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
February 19, 2025
Autori: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI
Abstract
Gli approcci attuali per l'addestramento dei Modelli di Ricompensa per Processi (PRM) spesso prevedono la suddivisione delle risposte in più passaggi di ragionamento utilizzando tecniche basate su regole, come l'uso di token segnaposto predefiniti o l'impostazione della lunghezza del passaggio di ragionamento su una dimensione fissa. Questi approcci trascurano il fatto che parole specifiche non contrassegnano tipicamente i veri punti decisionali in un testo. Per affrontare questo problema, proponiamo AdaptiveStep, un metodo che divide i passaggi di ragionamento in base alla confidenza del modello nel prevedere la parola successiva. Questo metodo di divisione fornisce maggiori informazioni decisionali ad ogni passaggio, migliorando i compiti a valle, come l'apprendimento del modello di ricompensa. Inoltre, il nostro metodo non richiede annotazioni manuali. Ne dimostriamo l'efficacia attraverso esperimenti con PRM addestrati con AdaptiveStep in compiti di ragionamento matematico e generazione di codice. I risultati sperimentali indicano che il PRM risultante raggiunge prestazioni Best-of-N all'avanguardia, superando la strategia di ricerca greedy con decodifica guidata dal valore a livello di token, riducendo al contempo i costi di costruzione di oltre il 30% rispetto ai PRM open-source esistenti. Inoltre, forniamo un'analisi approfondita e uno studio di caso sulle prestazioni, trasferibilità e capacità di generalizzazione del PRM.
English
Current approaches for training Process Reward Models (PRMs) often involve
breaking down responses into multiple reasoning steps using rule-based
techniques, such as using predefined placeholder tokens or setting the
reasoning step's length into a fixed size. These approaches overlook the fact
that specific words do not typically mark true decision points in a text. To
address this, we propose AdaptiveStep, a method that divides reasoning steps
based on the model's confidence in predicting the next word. This division
method provides more decision-making information at each step, enhancing
downstream tasks, such as reward model learning. Moreover, our method does not
require manual annotation. We demonstrate its effectiveness through experiments
with AdaptiveStep-trained PRMs in mathematical reasoning and code generation
tasks. Experimental results indicate that the outcome PRM achieves
state-of-the-art Best-of-N performance, surpassing greedy search strategy with
token-level value-guided decoding, while also reducing construction costs by
over 30% compared to existing open-source PRMs. In addition, we provide a
thorough analysis and case study on the PRM's performance, transferability, and
generalization capabilities.Summary
AI-Generated Summary