Verbessern Sie mathematisches Denken in Sprachmodellen durch automatisierte Prozessüberwachung.
Improve Mathematical Reasoning in Language Models by Automated Process Supervision
June 5, 2024
Autoren: Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi
cs.AI
Zusammenfassung
Komplexe mehrstufige Schlussfolgerungsaufgaben, wie das Lösen mathematischer Probleme oder das Generieren von Code, bleiben selbst für die fortschrittlichsten großen Sprachmodelle (LLMs) eine bedeutende Hürde. Die Verifizierung von LLM-Ausgaben mit einem Outcome Reward Model (ORM) ist eine gängige Inferenzzeit-Technik, die darauf abzielt, die Schlussfolgerungsleistung von LLMs zu verbessern. Dies erweist sich jedoch immer noch als unzureichend für Schlussfolgerungsaufgaben mit einer langen oder mehrstufigen Schlussfolgerungskette, bei der die Zwischenergebnisse weder angemessen belohnt noch bestraft werden. Die Prozessaufsicht behebt diese Einschränkung, indem sie während des Schlussfolgerungsprozesses Zwischenbelohnungen vergibt. Bisher haben die zur Erfassung von Prozessaufsichtsdaten verwendeten Methoden entweder auf menschlicher Annotation oder auf einer pro Schritt durchgeführten Monte-Carlo-Schätzung beruht, die beide aufgrund hoher Kosten nicht skalierbar sind und somit die breite Anwendung dieser Technik behindern. Als Antwort auf diese Herausforderung schlagen wir einen neuartigen Divide-and-Conquer-Stil Monte-Carlo-Tree-Search-Algorithmus namens OmegaPRM zur effizienten Erfassung hochwertiger Prozessaufsichtsdaten vor. Dieser Algorithmus identifiziert schnell den ersten Fehler in der Chain of Thought (CoT) mit binärer Suche und gleicht die positiven und negativen Beispiele aus, wodurch sowohl Effizienz als auch Qualität gewährleistet werden. Dadurch sind wir in der Lage, über 1,5 Millionen Prozessaufsichtsannotationen zu sammeln, um ein Process Reward Model (PRM) zu trainieren. Durch die Nutzung dieser vollständig automatisierten Prozessaufsicht zusammen mit dem gewichteten Selbstkonsistenzalgorithmus haben wir die mathematische Schlussfolgerungsleistung des instruktionsangepassten Gemini Pro-Modells verbessert und erreichen eine Erfolgsquote von 69,4\% im MATH-Benchmark, was eine relative Verbesserung von 36\% gegenüber der 51\%igen Leistung des Basismodells darstellt. Darüber hinaus funktioniert der gesamte Prozess ohne jegliche menschliche Intervention, was unsere Methode im Vergleich zu bestehenden Methoden sowohl finanziell als auch rechnerisch kosteneffizient macht.
English
Complex multi-step reasoning tasks, such as solving mathematical problems or
generating code, remain a significant hurdle for even the most advanced large
language models (LLMs). Verifying LLM outputs with an Outcome Reward Model
(ORM) is a standard inference-time technique aimed at enhancing the reasoning
performance of LLMs. However, this still proves insufficient for reasoning
tasks with a lengthy or multi-hop reasoning chain, where the intermediate
outcomes are neither properly rewarded nor penalized. Process supervision
addresses this limitation by assigning intermediate rewards during the
reasoning process. To date, the methods used to collect process supervision
data have relied on either human annotation or per-step Monte Carlo estimation,
both prohibitively expensive to scale, thus hindering the broad application of
this technique. In response to this challenge, we propose a novel
divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named
OmegaPRM for the efficient collection of high-quality process
supervision data. This algorithm swiftly identifies the first error in the
Chain of Thought (CoT) with binary search and balances the positive and
negative examples, thereby ensuring both efficiency and quality. As a result,
we are able to collect over 1.5 million process supervision annotations to
train a Process Reward Model (PRM). Utilizing this fully automated process
supervision alongside the weighted self-consistency algorithm, we have enhanced
the instruction tuned Gemini Pro model's math reasoning performance, achieving
a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from
the 51\% base model performance. Additionally, the entire process operates
without any human intervention, making our method both financially and
computationally cost-effective compared to existing methods.