AdaptiveStep : Division automatique des étapes de raisonnement par la confiance du modèle

papers.abstract

Les approches actuelles pour l'entraînement des modèles de récompense de processus (PRM) impliquent souvent la décomposition des réponses en plusieurs étapes de raisonnement à l'aide de techniques basées sur des règles, telles que l'utilisation de jetons prédéfinis ou la fixation de la longueur des étapes de raisonnement à une taille déterminée. Ces approches négligent le fait que des mots spécifiques ne marquent généralement pas les véritables points de décision dans un texte. Pour remédier à cela, nous proposons AdaptiveStep, une méthode qui divise les étapes de raisonnement en fonction de la confiance du modèle dans la prédiction du mot suivant. Cette méthode de division fournit davantage d'informations décisionnelles à chaque étape, améliorant ainsi les tâches en aval, comme l'apprentissage des modèles de récompense. De plus, notre méthode ne nécessite pas d'annotation manuelle. Nous démontrons son efficacité à travers des expériences avec des PRM entraînés par AdaptiveStep dans des tâches de raisonnement mathématique et de génération de code. Les résultats expérimentaux indiquent que le PRM obtenu atteint des performances de pointe en Best-of-N, surpassant la stratégie de recherche gloutonne avec décodage guidé par valeur au niveau des jetons, tout en réduisant les coûts de construction de plus de 30 % par rapport aux PRM open-source existants. En outre, nous fournissons une analyse approfondie et une étude de cas sur les performances, la transférabilité et les capacités de généralisation du PRM.

English

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

AdaptiveStep : Division automatique des étapes de raisonnement par la confiance du modèle

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

papers.abstract

Support