AdaptiveStep: Automatische Unterteilung von Denkschritten anhand der Modellzuversicht
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
February 19, 2025
Autoren: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI
Zusammenfassung
Aktuelle Ansätze für das Training von Process Reward Models (PRMs) beinhalten häufig das Aufteilen von Antworten in mehrere Denkschritte mithilfe regelbasierter Techniken, wie die Verwendung vordefinierter Platzhalter-Tokens oder das Festlegen der Länge der Denkschritte auf eine feste Größe. Diese Ansätze übersehen die Tatsache, dass spezifische Wörter typischerweise keine echten Entscheidungspunkte in einem Text markieren. Um dies zu adressieren, schlagen wir AdaptiveStep vor, eine Methode, die Denkschritte basierend auf dem Vertrauen des Modells in die Vorhersage des nächsten Wortes aufteilt. Diese Aufteilungsmethode liefert mehr Entscheidungsinformationen in jedem Schritt und verbessert nachgelagerte Aufgaben, wie das Lernen von Belohnungsmodellen. Darüber hinaus erfordert unsere Methode keine manuelle Annotation. Wir demonstrieren ihre Wirksamkeit durch Experimente mit AdaptiveStep-trainierten PRMs in mathematischen Denkaufgaben und Code-Generierungsaufgaben. Die experimentellen Ergebnisse zeigen, dass das resultierende PRM eine state-of-the-art Best-of-N-Leistung erzielt und die Greedy-Search-Strategie mit token-level-wertgesteuerter Dekodierung übertrifft, während gleichzeitig die Konstruktionskosten um über 30 % im Vergleich zu bestehenden Open-Source-PRMs reduziert werden. Zusätzlich bieten wir eine umfassende Analyse und Fallstudie zur Leistung, Übertragbarkeit und Generalisierungsfähigkeit des PRMs.
English
Current approaches for training Process Reward Models (PRMs) often involve
breaking down responses into multiple reasoning steps using rule-based
techniques, such as using predefined placeholder tokens or setting the
reasoning step's length into a fixed size. These approaches overlook the fact
that specific words do not typically mark true decision points in a text. To
address this, we propose AdaptiveStep, a method that divides reasoning steps
based on the model's confidence in predicting the next word. This division
method provides more decision-making information at each step, enhancing
downstream tasks, such as reward model learning. Moreover, our method does not
require manual annotation. We demonstrate its effectiveness through experiments
with AdaptiveStep-trained PRMs in mathematical reasoning and code generation
tasks. Experimental results indicate that the outcome PRM achieves
state-of-the-art Best-of-N performance, surpassing greedy search strategy with
token-level value-guided decoding, while also reducing construction costs by
over 30% compared to existing open-source PRMs. In addition, we provide a
thorough analysis and case study on the PRM's performance, transferability, and
generalization capabilities.Summary
AI-Generated Summary