Améliorer le raisonnement mathématique dans les modèles de langage par supervision automatisée des processus
Improve Mathematical Reasoning in Language Models by Automated Process Supervision
June 5, 2024
Auteurs: Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi
cs.AI
Résumé
Les tâches complexes de raisonnement en plusieurs étapes, telles que la résolution de problèmes mathématiques ou la génération de code, restent un défi majeur même pour les modèles de langage les plus avancés (LLMs). La vérification des sorties des LLMs à l'aide d'un modèle de récompense basé sur les résultats (ORM) est une technique standard au moment de l'inférence visant à améliorer les performances de raisonnement des LLMs. Cependant, cela s'avère encore insuffisant pour les tâches de raisonnement impliquant une chaîne de raisonnement longue ou multi-étapes, où les résultats intermédiaires ne sont ni correctement récompensés ni pénalisés. La supervision de processus répond à cette limitation en attribuant des récompenses intermédiaires pendant le processus de raisonnement. Jusqu'à présent, les méthodes utilisées pour collecter les données de supervision de processus reposaient soit sur l'annotation humaine, soit sur l'estimation Monte Carlo par étape, toutes deux prohibitivement coûteuses à grande échelle, entravant ainsi l'application généralisée de cette technique. Face à ce défi, nous proposons un nouvel algorithme de recherche arborescente Monte Carlo (MCTS) de style diviser-pour-régner, nommé OmegaPRM, pour la collecte efficace de données de supervision de processus de haute qualité. Cet algorithme identifie rapidement la première erreur dans la Chaîne de Pensée (CoT) grâce à une recherche binaire et équilibre les exemples positifs et négatifs, assurant ainsi à la fois efficacité et qualité. En conséquence, nous avons pu collecter plus de 1,5 million d'annotations de supervision de processus pour entraîner un modèle de récompense de processus (PRM). En utilisant cette supervision de processus entièrement automatisée conjointement avec l'algorithme de cohérence auto-pondérée, nous avons amélioré les performances de raisonnement mathématique du modèle Gemini Pro ajusté par instruction, atteignant un taux de réussite de 69,4 % sur le benchmark MATH, soit une amélioration relative de 36 % par rapport aux 51 % de performance du modèle de base. De plus, l'ensemble du processus fonctionne sans aucune intervention humaine, rendant notre méthode à la fois financièrement et computationnellement rentable par rapport aux méthodes existantes.
English
Complex multi-step reasoning tasks, such as solving mathematical problems or
generating code, remain a significant hurdle for even the most advanced large
language models (LLMs). Verifying LLM outputs with an Outcome Reward Model
(ORM) is a standard inference-time technique aimed at enhancing the reasoning
performance of LLMs. However, this still proves insufficient for reasoning
tasks with a lengthy or multi-hop reasoning chain, where the intermediate
outcomes are neither properly rewarded nor penalized. Process supervision
addresses this limitation by assigning intermediate rewards during the
reasoning process. To date, the methods used to collect process supervision
data have relied on either human annotation or per-step Monte Carlo estimation,
both prohibitively expensive to scale, thus hindering the broad application of
this technique. In response to this challenge, we propose a novel
divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named
OmegaPRM for the efficient collection of high-quality process
supervision data. This algorithm swiftly identifies the first error in the
Chain of Thought (CoT) with binary search and balances the positive and
negative examples, thereby ensuring both efficiency and quality. As a result,
we are able to collect over 1.5 million process supervision annotations to
train a Process Reward Model (PRM). Utilizing this fully automated process
supervision alongside the weighted self-consistency algorithm, we have enhanced
the instruction tuned Gemini Pro model's math reasoning performance, achieving
a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from
the 51\% base model performance. Additionally, the entire process operates
without any human intervention, making our method both financially and
computationally cost-effective compared to existing methods.Summary
AI-Generated Summary