GLoRe : Quand, où et comment améliorer le raisonnement des LLM grâce à des raffinement globaux et locaux

papers.abstract

Les modèles de langage de pointe peuvent démontrer des capacités impressionnantes de raffinement du raisonnement sur des tâches de mathématiques, de sciences ou de programmation. Cependant, des travaux récents montrent que même les meilleurs modèles ont du mal à identifier quand et où raffiner sans accès à un retour externe. Les modèles de récompense basés sur les résultats (ORMs), entraînés à prédire la justesse de la réponse finale pour indiquer quand raffiner, offrent une solution pratique pour décider quand procéder à ce raffinement. Les modèles de récompense basés sur le processus (PRMs), entraînés à prédire la justesse des étapes intermédiaires, peuvent ensuite être utilisés pour indiquer où raffiner. Cependant, leur entraînement est coûteux, nécessitant des annotations humaines approfondies. Dans cet article, nous proposons des ORMs étape par étape (SORMs), qui sont entraînés uniquement sur des données synthétiques, pour approximer la récompense future attendue de la politique optimale ou V^{star}. Plus précisément, les SORMs sont entraînés à prédire la justesse de la réponse finale en échantillonnant la politique actuelle plusieurs fois (plutôt qu'une seule fois comme dans le cas des ORMs). Nos expériences montrent que les SORMs peuvent détecter plus précisément les étapes de raisonnement incorrectes par rapport aux ORMs, améliorant ainsi la précision en aval lors des raffinements. Nous entraînons ensuite des modèles de raffinement globaux, qui prennent uniquement la question et une solution provisoire en entrée pour prédire une solution corrigée, ainsi que des modèles de raffinement locaux qui prennent également en entrée une critique indiquant l'emplacement de la première erreur de raisonnement. Nous générons des données d'entraînement pour ces deux modèles de manière synthétique en réutilisant les données utilisées pour entraîner le SORM. Nous constatons que la combinaison des raffinements globaux et locaux, en utilisant l'ORM comme reclassificateur, surpasse significativement chacun d'eux individuellement, ainsi qu'une base de référence de meilleur échantillon parmi trois. Avec cette stratégie, nous pouvons améliorer la précision d'un modèle LLaMA-2 13B (déjà affiné par apprentissage par renforcement) sur GSM8K de 53\% à 65\% lors d'un échantillonnage glouton.

English

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.

GLoRe : Quand, où et comment améliorer le raisonnement des LLM grâce à des raffinement globaux et locaux

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

papers.abstract

Support