GLoRe: Quando, Dove e Come Migliorare il Ragionamento dei Modelli Linguistici di Grande Dimensione attraverso Raffinamenti Globali e Locali

Abstract

I modelli linguistici all'avanguardia possono mostrare impressionanti capacità di affinamento del ragionamento in compiti di matematica, scienze o programmazione. Tuttavia, lavori recenti dimostrano che anche i migliori modelli faticano a identificare quando e dove affinare senza accesso a feedback esterni. I Modelli di Ricompensa Basati sul Risultato (ORMs), addestrati a prevedere la correttezza della risposta finale per indicare quando affinare, offrono una soluzione conveniente per decidere quando procedere. I Modelli di Ricompensa Basati sul Processo (PRMs), addestrati a prevedere la correttezza dei passaggi intermedi, possono quindi essere utilizzati per indicare dove affinare. Tuttavia, sono costosi da addestrare, richiedendo annotazioni umane estese. In questo articolo, proponiamo i Modelli di Ricompensa Stepwise (SORMs), addestrati esclusivamente su dati sintetici, per approssimare la ricompensa futura attesa della politica ottimale o \(V^{\star}\). Più specificamente, i SORMs sono addestrati a prevedere la correttezza della risposta finale quando si campiona la politica corrente molte volte (anziché una sola volta come nel caso degli ORMs). I nostri esperimenti mostrano che i SORMs possono rilevare in modo più accurato i passaggi di ragionamento errati rispetto agli ORMs, migliorando così l'accuratezza a valle durante gli affinamenti. Successivamente, addestriamo modelli di affinamento globale, che prendono in input solo la domanda e una bozza di soluzione per prevedere una soluzione corretta, e modelli di affinamento locale che prendono in input anche una critica che indica la posizione del primo errore di ragionamento. Generiamo dati di addestramento per entrambi i modelli sinteticamente riutilizzando i dati utilizzati per addestrare il SORM. Troviamo che combinare affinamenti globali e locali, utilizzando l'ORM come riordinatore, supera significativamente entrambi i metodi individualmente, nonché una baseline basata sul miglior campione di tre. Con questa strategia, possiamo migliorare l'accuratezza di un modello LLaMA-2 13B (già ottimizzato con RL) su GSM8K dal 53% al 65% quando campionato in modo greedy.

English

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.

GLoRe: Quando, Dove e Come Migliorare il Ragionamento dei Modelli Linguistici di Grande Dimensione attraverso Raffinamenti Globali e Locali

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Abstract

Support