Verbessern Sie mathematisches Denken in Sprachmodellen durch automatisierte Prozessüberwachung.

Zusammenfassung

Komplexe mehrstufige Schlussfolgerungsaufgaben, wie das Lösen mathematischer Probleme oder das Generieren von Code, bleiben selbst für die fortschrittlichsten großen Sprachmodelle (LLMs) eine bedeutende Hürde. Die Verifizierung von LLM-Ausgaben mit einem Outcome Reward Model (ORM) ist eine gängige Inferenzzeit-Technik, die darauf abzielt, die Schlussfolgerungsleistung von LLMs zu verbessern. Dies erweist sich jedoch immer noch als unzureichend für Schlussfolgerungsaufgaben mit einer langen oder mehrstufigen Schlussfolgerungskette, bei der die Zwischenergebnisse weder angemessen belohnt noch bestraft werden. Die Prozessaufsicht behebt diese Einschränkung, indem sie während des Schlussfolgerungsprozesses Zwischenbelohnungen vergibt. Bisher haben die zur Erfassung von Prozessaufsichtsdaten verwendeten Methoden entweder auf menschlicher Annotation oder auf einer pro Schritt durchgeführten Monte-Carlo-Schätzung beruht, die beide aufgrund hoher Kosten nicht skalierbar sind und somit die breite Anwendung dieser Technik behindern. Als Antwort auf diese Herausforderung schlagen wir einen neuartigen Divide-and-Conquer-Stil Monte-Carlo-Tree-Search-Algorithmus namens OmegaPRM zur effizienten Erfassung hochwertiger Prozessaufsichtsdaten vor. Dieser Algorithmus identifiziert schnell den ersten Fehler in der Chain of Thought (CoT) mit binärer Suche und gleicht die positiven und negativen Beispiele aus, wodurch sowohl Effizienz als auch Qualität gewährleistet werden. Dadurch sind wir in der Lage, über 1,5 Millionen Prozessaufsichtsannotationen zu sammeln, um ein Process Reward Model (PRM) zu trainieren. Durch die Nutzung dieser vollständig automatisierten Prozessaufsicht zusammen mit dem gewichteten Selbstkonsistenzalgorithmus haben wir die mathematische Schlussfolgerungsleistung des instruktionsangepassten Gemini Pro-Modells verbessert und erreichen eine Erfolgsquote von 69,4\% im MATH-Benchmark, was eine relative Verbesserung von 36\% gegenüber der 51\%igen Leistung des Basismodells darstellt. Darüber hinaus funktioniert der gesamte Prozess ohne jegliche menschliche Intervention, was unsere Methode im Vergleich zu bestehenden Methoden sowohl finanziell als auch rechnerisch kosteneffizient macht.

English

Complex multi-step reasoning tasks, such as solving mathematical problems or generating code, remain a significant hurdle for even the most advanced large language models (LLMs). Verifying LLM outputs with an Outcome Reward Model (ORM) is a standard inference-time technique aimed at enhancing the reasoning performance of LLMs. However, this still proves insufficient for reasoning tasks with a lengthy or multi-hop reasoning chain, where the intermediate outcomes are neither properly rewarded nor penalized. Process supervision addresses this limitation by assigning intermediate rewards during the reasoning process. To date, the methods used to collect process supervision data have relied on either human annotation or per-step Monte Carlo estimation, both prohibitively expensive to scale, thus hindering the broad application of this technique. In response to this challenge, we propose a novel divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named OmegaPRM for the efficient collection of high-quality process supervision data. This algorithm swiftly identifies the first error in the Chain of Thought (CoT) with binary search and balances the positive and negative examples, thereby ensuring both efficiency and quality. As a result, we are able to collect over 1.5 million process supervision annotations to train a Process Reward Model (PRM). Utilizing this fully automated process supervision alongside the weighted self-consistency algorithm, we have enhanced the instruction tuned Gemini Pro model's math reasoning performance, achieving a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from the 51\% base model performance. Additionally, the entire process operates without any human intervention, making our method both financially and computationally cost-effective compared to existing methods.

Verbessern Sie mathematisches Denken in Sprachmodellen durch automatisierte Prozessüberwachung.

Improve Mathematical Reasoning in Language Models by Automated Process Supervision

Zusammenfassung

Support