GLoRe: Wanneer, Waar en Hoe het Redeneervermogen van LLM's te Verbeteren via Globale en Lokale Verfijningen

Samenvatting

State-of-the-art taalmodelen kunnen indrukwekkende redeneerverfijningscapaciteiten vertonen bij taken op het gebied van wiskunde, wetenschap of programmeren. Recent onderzoek toont echter aan dat zelfs de beste modellen moeite hebben om te bepalen wanneer en waar ze moeten verfijnen zonder toegang tot externe feedback. Outcome-based Reward Models (ORMs), getraind om de correctheid van het uiteindelijke antwoord te voorspellen en zo aan te geven wanneer er verfijnd moet worden, bieden een handige oplossing voor het beslissen wanneer te verfijnen. Process Based Reward Models (PRMs), getraind om de correctheid van tussenstappen te voorspellen, kunnen vervolgens worden gebruikt om aan te geven waar er verfijnd moet worden. Deze zijn echter duur om te trainen, omdat ze uitgebreide menselijke annotaties vereisen. In dit artikel stellen we Stepwise ORMs (SORMs) voor, die alleen op synthetische data worden getraind om de verwachte toekomstige beloning van het optimale beleid of V^{star} te benaderen. Meer specifiek zijn SORMs getraind om de correctheid van het uiteindelijke antwoord te voorspellen wanneer het huidige beleid meerdere keren wordt bemonsterd (in plaats van slechts één keer zoals bij ORMs). Onze experimenten tonen aan dat SORMs onjuiste redeneerstappen nauwkeuriger kunnen detecteren vergeleken met ORMs, waardoor de downstream-nauwkeurigheid bij het verfijnen wordt verbeterd. Vervolgens trainen we globale verfijningsmodellen, die alleen de vraag en een conceptoplossing als invoer nemen en een gecorrigeerde oplossing voorspellen, en lokale verfijningsmodellen die ook een kritiek als invoer nemen die de locatie van de eerste redeneerfout aangeeft. We genereren trainingsdata voor beide modellen synthetisch door data die gebruikt is om de SORM te trainen, te hergebruiken. We ontdekken dat het combineren van globale en lokale verfijningen, waarbij de ORM wordt gebruikt als een herrangeringsmodel, aanzienlijk beter presteert dan elk afzonderlijk, evenals een baseline van de beste van drie steekproeven. Met deze strategie kunnen we de nauwkeurigheid van een LLaMA-2 13B-model (dat al is afgestemd met reinforcement learning) op GSM8K verbeteren van 53\% naar 65\% wanneer het greedy wordt bemonsterd.

English

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.

GLoRe: Wanneer, Waar en Hoe het Redeneervermogen van LLM's te Verbeteren via Globale en Lokale Verfijningen

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Samenvatting

Support