ChatPaper.aiChatPaper

GLoRe: Quando, Onde e Como Melhorar o Raciocínio de LLMs por meio de Refinamentos Globais e Locais

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

February 13, 2024
Autores: Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau
cs.AI

Resumo

Modelos de linguagem de última geração podem exibir capacidades impressionantes de refinamento de raciocínio em tarefas de matemática, ciência ou programação. No entanto, trabalhos recentes demonstram que mesmo os melhores modelos lutam para identificar quando e onde refinar sem acesso a feedback externo. Modelos de Recompensa Baseados em Resultados (ORMs), treinados para prever a correção da resposta final, indicando quando refinar, oferecem uma solução conveniente para decidir quando refinar. Modelos de Recompensa Baseados em Processo (PRMs), treinados para prever a correção de etapas intermediárias, podem então ser usados para indicar onde refinar. No entanto, eles são caros de treinar, exigindo anotações humanas extensas. Neste artigo, propomos Modelos de Recompensa Baseados em Resultados Passo a Passo (SORMs), que são treinados apenas com dados sintéticos, para aproximar a recompensa futura esperada da política ótima ou V^{star}. Mais especificamente, os SORMs são treinados para prever a correção da resposta final ao amostrar a política atual várias vezes (em vez de apenas uma vez, como no caso dos ORMs). Nossos experimentos mostram que os SORMs podem detectar etapas de raciocínio incorretas com maior precisão em comparação com os ORMs, melhorando assim a precisão subsequente ao realizar refinamentos. Em seguida, treinamos modelos de refinamento global, que recebem apenas a pergunta e uma solução preliminar como entrada e preveem uma solução corrigida, e modelos de refinamento local, que também recebem como entrada uma crítica indicando a localização do primeiro erro de raciocínio. Geramos dados de treinamento para ambos os modelos sinteticamente, reutilizando dados usados para treinar o SORM. Descobrimos que combinar refinamentos globais e locais, usando o ORM como um reranker, supera significativamente qualquer um deles individualmente, bem como uma linha de base de melhor amostra de três. Com essa estratégia, podemos melhorar a precisão de um modelo LLaMA-2 13B (já ajustado com RL) no GSM8K de 53\% para 65\% quando amostrado de forma gananciosa.
English
State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.
PDF121December 15, 2024