AdaptiveStep : Division automatique des étapes de raisonnement par la confiance du modèle
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
February 19, 2025
Auteurs: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI
Résumé
Les approches actuelles pour l'entraînement des modèles de récompense de processus (PRM) impliquent souvent la décomposition des réponses en plusieurs étapes de raisonnement à l'aide de techniques basées sur des règles, telles que l'utilisation de jetons prédéfinis ou la fixation de la longueur des étapes de raisonnement à une taille déterminée. Ces approches négligent le fait que des mots spécifiques ne marquent généralement pas les véritables points de décision dans un texte. Pour remédier à cela, nous proposons AdaptiveStep, une méthode qui divise les étapes de raisonnement en fonction de la confiance du modèle dans la prédiction du mot suivant. Cette méthode de division fournit davantage d'informations décisionnelles à chaque étape, améliorant ainsi les tâches en aval, comme l'apprentissage des modèles de récompense. De plus, notre méthode ne nécessite pas d'annotation manuelle. Nous démontrons son efficacité à travers des expériences avec des PRM entraînés par AdaptiveStep dans des tâches de raisonnement mathématique et de génération de code. Les résultats expérimentaux indiquent que le PRM obtenu atteint des performances de pointe en Best-of-N, surpassant la stratégie de recherche gloutonne avec décodage guidé par valeur au niveau des jetons, tout en réduisant les coûts de construction de plus de 30 % par rapport aux PRM open-source existants. En outre, nous fournissons une analyse approfondie et une étude de cas sur les performances, la transférabilité et les capacités de généralisation du PRM.
English
Current approaches for training Process Reward Models (PRMs) often involve
breaking down responses into multiple reasoning steps using rule-based
techniques, such as using predefined placeholder tokens or setting the
reasoning step's length into a fixed size. These approaches overlook the fact
that specific words do not typically mark true decision points in a text. To
address this, we propose AdaptiveStep, a method that divides reasoning steps
based on the model's confidence in predicting the next word. This division
method provides more decision-making information at each step, enhancing
downstream tasks, such as reward model learning. Moreover, our method does not
require manual annotation. We demonstrate its effectiveness through experiments
with AdaptiveStep-trained PRMs in mathematical reasoning and code generation
tasks. Experimental results indicate that the outcome PRM achieves
state-of-the-art Best-of-N performance, surpassing greedy search strategy with
token-level value-guided decoding, while also reducing construction costs by
over 30% compared to existing open-source PRMs. In addition, we provide a
thorough analysis and case study on the PRM's performance, transferability, and
generalization capabilities.