GLoRe: Wann, wo und wie das Reasoning von LLMs durch globale und lokale Verfeinerungen verbessert werden kann

papers.abstract

State-of-the-art-Sprachmodelle können beeindruckende Fähigkeiten zur Verfeinerung von Schlussfolgerungen bei Aufgaben in Mathematik, Naturwissenschaften oder Programmierung zeigen. Jüngste Arbeiten belegen jedoch, dass selbst die besten Modelle Schwierigkeiten haben, zu erkennen, wann und wo sie verfeinern sollten, ohne Zugang zu externem Feedback. Outcome-based Reward Models (ORMs), die darauf trainiert sind, die Korrektheit der endgültigen Antwort vorherzusagen und somit anzuzeigen, wann eine Verfeinerung notwendig ist, bieten eine praktische Lösung für diese Entscheidung. Process-based Reward Models (PRMs), die darauf trainiert sind, die Korrektheit von Zwischenschritten vorherzusagen, können dann verwendet werden, um zu bestimmen, wo verfeinert werden sollte. Allerdings sind sie teuer zu trainieren, da sie umfangreiche menschliche Annotationen erfordern. In diesem Artikel schlagen wir Stepwise ORMs (SORMs) vor, die ausschließlich auf synthetischen Daten trainiert werden, um den erwarteten zukünftigen Belohnungswert der optimalen Strategie oder V^{star} zu approximieren. Genauer gesagt werden SORMs darauf trainiert, die Korrektheit der endgültigen Antwort vorherzusagen, wenn die aktuelle Strategie mehrmals abgetastet wird (anstatt nur einmal wie im Fall von ORMs). Unsere Experimente zeigen, dass SORMs im Vergleich zu ORMs fehlerhafte Schlussfolgerungsschritte genauer erkennen können und somit die Genauigkeit bei nachfolgenden Verfeinerungen verbessern. Anschließend trainieren wir globale Verfeinerungsmodelle, die nur die Frage und einen Entwurf der Lösung als Eingabe nehmen und eine korrigierte Lösung vorhersagen, sowie lokale Verfeinerungsmodelle, die zusätzlich eine Kritik als Eingabe erhalten, die den Ort des ersten Fehlers in der Schlussfolgerung angibt. Wir generieren Trainingsdaten für beide Modelle synthetisch, indem wir Daten wiederverwenden, die zum Trainieren des SORM verwendet wurden. Wir stellen fest, dass die Kombination von globalen und lokalen Verfeinerungen unter Verwendung des ORM als Reranker signifikant besser abschneidet als jede Methode für sich allein sowie eine Baseline mit dem besten von drei Stichproben. Mit dieser Strategie können wir die Genauigkeit eines LLaMA-2-13B-Modells (das bereits mit Reinforcement Learning feinabgestimmt wurde) auf GSM8K von 53 % auf 65 % verbessern, wenn es gierig abgetastet wird.

English

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.

GLoRe: Wann, wo und wie das Reasoning von LLMs durch globale und lokale Verfeinerungen verbessert werden kann

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

papers.abstract

Support