AdaptiveStep: Automatisch Verdelen van Redeneerstappen op Basis van Modelvertrouwen
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
February 19, 2025
Auteurs: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI
Samenvatting
Huidige benaderingen voor het trainen van Process Reward Models (PRM's) omvatten vaak het opdelen van reacties in meerdere redeneerstappen met behulp van op regels gebaseerde technieken, zoals het gebruik van vooraf gedefinieerde placeholder-tokens of het vaststellen van de lengte van de redeneerstap in een vaste grootte. Deze benaderingen negeren het feit dat specifieke woorden doorgaans geen echte beslissingspunten in een tekst markeren. Om dit aan te pakken, stellen we AdaptiveStep voor, een methode die redeneerstappen verdeelt op basis van het vertrouwen van het model in het voorspellen van het volgende woord. Deze verdeelmethode biedt meer beslissingsinformatie bij elke stap, wat downstream taken, zoals het leren van beloningsmodellen, verbetert. Bovendien vereist onze methode geen handmatige annotatie. We demonstreren de effectiviteit ervan door experimenten met AdaptiveStep-getrainde PRM's in wiskundige redeneer- en codegeneratietaken. Experimentele resultaten tonen aan dat de resulterende PRM state-of-the-art Best-of-N prestaties behaalt, waarbij de gretige zoekstrategie met token-level waardegeleide decodering wordt overtroffen, terwijl ook de constructiekosten met meer dan 30% worden verlaagd in vergelijking met bestaande open-source PRM's. Daarnaast bieden we een grondige analyse en een casestudy over de prestaties, overdraagbaarheid en generalisatiecapaciteiten van de PRM.
English
Current approaches for training Process Reward Models (PRMs) often involve
breaking down responses into multiple reasoning steps using rule-based
techniques, such as using predefined placeholder tokens or setting the
reasoning step's length into a fixed size. These approaches overlook the fact
that specific words do not typically mark true decision points in a text. To
address this, we propose AdaptiveStep, a method that divides reasoning steps
based on the model's confidence in predicting the next word. This division
method provides more decision-making information at each step, enhancing
downstream tasks, such as reward model learning. Moreover, our method does not
require manual annotation. We demonstrate its effectiveness through experiments
with AdaptiveStep-trained PRMs in mathematical reasoning and code generation
tasks. Experimental results indicate that the outcome PRM achieves
state-of-the-art Best-of-N performance, surpassing greedy search strategy with
token-level value-guided decoding, while also reducing construction costs by
over 30% compared to existing open-source PRMs. In addition, we provide a
thorough analysis and case study on the PRM's performance, transferability, and
generalization capabilities.Summary
AI-Generated Summary