Améliorer le raisonnement mathématique dans les modèles de langage par supervision automatisée des processus

Résumé

Les tâches complexes de raisonnement en plusieurs étapes, telles que la résolution de problèmes mathématiques ou la génération de code, restent un défi majeur même pour les modèles de langage les plus avancés (LLMs). La vérification des sorties des LLMs à l'aide d'un modèle de récompense basé sur les résultats (ORM) est une technique standard au moment de l'inférence visant à améliorer les performances de raisonnement des LLMs. Cependant, cela s'avère encore insuffisant pour les tâches de raisonnement impliquant une chaîne de raisonnement longue ou multi-étapes, où les résultats intermédiaires ne sont ni correctement récompensés ni pénalisés. La supervision de processus répond à cette limitation en attribuant des récompenses intermédiaires pendant le processus de raisonnement. Jusqu'à présent, les méthodes utilisées pour collecter les données de supervision de processus reposaient soit sur l'annotation humaine, soit sur l'estimation Monte Carlo par étape, toutes deux prohibitivement coûteuses à grande échelle, entravant ainsi l'application généralisée de cette technique. Face à ce défi, nous proposons un nouvel algorithme de recherche arborescente Monte Carlo (MCTS) de style diviser-pour-régner, nommé OmegaPRM, pour la collecte efficace de données de supervision de processus de haute qualité. Cet algorithme identifie rapidement la première erreur dans la Chaîne de Pensée (CoT) grâce à une recherche binaire et équilibre les exemples positifs et négatifs, assurant ainsi à la fois efficacité et qualité. En conséquence, nous avons pu collecter plus de 1,5 million d'annotations de supervision de processus pour entraîner un modèle de récompense de processus (PRM). En utilisant cette supervision de processus entièrement automatisée conjointement avec l'algorithme de cohérence auto-pondérée, nous avons amélioré les performances de raisonnement mathématique du modèle Gemini Pro ajusté par instruction, atteignant un taux de réussite de 69,4 % sur le benchmark MATH, soit une amélioration relative de 36 % par rapport aux 51 % de performance du modèle de base. De plus, l'ensemble du processus fonctionne sans aucune intervention humaine, rendant notre méthode à la fois financièrement et computationnellement rentable par rapport aux méthodes existantes.

English

Complex multi-step reasoning tasks, such as solving mathematical problems or generating code, remain a significant hurdle for even the most advanced large language models (LLMs). Verifying LLM outputs with an Outcome Reward Model (ORM) is a standard inference-time technique aimed at enhancing the reasoning performance of LLMs. However, this still proves insufficient for reasoning tasks with a lengthy or multi-hop reasoning chain, where the intermediate outcomes are neither properly rewarded nor penalized. Process supervision addresses this limitation by assigning intermediate rewards during the reasoning process. To date, the methods used to collect process supervision data have relied on either human annotation or per-step Monte Carlo estimation, both prohibitively expensive to scale, thus hindering the broad application of this technique. In response to this challenge, we propose a novel divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named OmegaPRM for the efficient collection of high-quality process supervision data. This algorithm swiftly identifies the first error in the Chain of Thought (CoT) with binary search and balances the positive and negative examples, thereby ensuring both efficiency and quality. As a result, we are able to collect over 1.5 million process supervision annotations to train a Process Reward Model (PRM). Utilizing this fully automated process supervision alongside the weighted self-consistency algorithm, we have enhanced the instruction tuned Gemini Pro model's math reasoning performance, achieving a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from the 51\% base model performance. Additionally, the entire process operates without any human intervention, making our method both financially and computationally cost-effective compared to existing methods.

Améliorer le raisonnement mathématique dans les modèles de langage par supervision automatisée des processus

Improve Mathematical Reasoning in Language Models by Automated Process Supervision

Résumé

Support