AdaptiveStep: Automatische Unterteilung von Denkschritten anhand der Modellzuversicht

papers.abstract

Aktuelle Ansätze für das Training von Process Reward Models (PRMs) beinhalten häufig das Aufteilen von Antworten in mehrere Denkschritte mithilfe regelbasierter Techniken, wie die Verwendung vordefinierter Platzhalter-Tokens oder das Festlegen der Länge der Denkschritte auf eine feste Größe. Diese Ansätze übersehen die Tatsache, dass spezifische Wörter typischerweise keine echten Entscheidungspunkte in einem Text markieren. Um dies zu adressieren, schlagen wir AdaptiveStep vor, eine Methode, die Denkschritte basierend auf dem Vertrauen des Modells in die Vorhersage des nächsten Wortes aufteilt. Diese Aufteilungsmethode liefert mehr Entscheidungsinformationen in jedem Schritt und verbessert nachgelagerte Aufgaben, wie das Lernen von Belohnungsmodellen. Darüber hinaus erfordert unsere Methode keine manuelle Annotation. Wir demonstrieren ihre Wirksamkeit durch Experimente mit AdaptiveStep-trainierten PRMs in mathematischen Denkaufgaben und Code-Generierungsaufgaben. Die experimentellen Ergebnisse zeigen, dass das resultierende PRM eine state-of-the-art Best-of-N-Leistung erzielt und die Greedy-Search-Strategie mit token-level-wertgesteuerter Dekodierung übertrifft, während gleichzeitig die Konstruktionskosten um über 30 % im Vergleich zu bestehenden Open-Source-PRMs reduziert werden. Zusätzlich bieten wir eine umfassende Analyse und Fallstudie zur Leistung, Übertragbarkeit und Generalisierungsfähigkeit des PRMs.

English

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

AdaptiveStep: Automatische Unterteilung von Denkschritten anhand der Modellzuversicht

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

papers.abstract

Support