AdaptiveStep: Automatisch Verdelen van Redeneerstappen op Basis van Modelvertrouwen

Samenvatting

Huidige benaderingen voor het trainen van Process Reward Models (PRM's) omvatten vaak het opdelen van reacties in meerdere redeneerstappen met behulp van op regels gebaseerde technieken, zoals het gebruik van vooraf gedefinieerde placeholder-tokens of het vaststellen van de lengte van de redeneerstap in een vaste grootte. Deze benaderingen negeren het feit dat specifieke woorden doorgaans geen echte beslissingspunten in een tekst markeren. Om dit aan te pakken, stellen we AdaptiveStep voor, een methode die redeneerstappen verdeelt op basis van het vertrouwen van het model in het voorspellen van het volgende woord. Deze verdeelmethode biedt meer beslissingsinformatie bij elke stap, wat downstream taken, zoals het leren van beloningsmodellen, verbetert. Bovendien vereist onze methode geen handmatige annotatie. We demonstreren de effectiviteit ervan door experimenten met AdaptiveStep-getrainde PRM's in wiskundige redeneer- en codegeneratietaken. Experimentele resultaten tonen aan dat de resulterende PRM state-of-the-art Best-of-N prestaties behaalt, waarbij de gretige zoekstrategie met token-level waardegeleide decodering wordt overtroffen, terwijl ook de constructiekosten met meer dan 30% worden verlaagd in vergelijking met bestaande open-source PRM's. Daarnaast bieden we een grondige analyse en een casestudy over de prestaties, overdraagbaarheid en generalisatiecapaciteiten van de PRM.

English

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

AdaptiveStep: Automatisch Verdelen van Redeneerstappen op Basis van Modelvertrouwen

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Samenvatting

Support