GLoRe: Когда, где и как улучшить рассуждения языковых моделей с помощью глобальных и локальных уточнений

Аннотация

Современные языковые модели демонстрируют впечатляющие способности к уточнению рассуждений в задачах по математике, естественным наукам или программированию. Однако недавние исследования показывают, что даже лучшие модели испытывают трудности с определением момента и места для уточнения без доступа к внешней обратной связи. Модели вознаграждения, основанные на результатах (Outcome-based Reward Models, ORMs), обученные предсказывать правильность конечного ответа и указывать, когда следует уточнять, предлагают удобное решение для принятия таких решений. Модели вознаграждения, основанные на процессе (Process Based Reward Models, PRMs), обученные предсказывать правильность промежуточных шагов, могут затем использоваться для указания места уточнения. Однако их обучение требует значительных затрат, включая обширные аннотации, созданные человеком. В данной работе мы предлагаем пошаговые ORMs (Stepwise ORMs, SORMs), которые обучаются исключительно на синтетических данных для аппроксимации ожидаемого будущего вознаграждения оптимальной политики или \(V^{\star}\). Более конкретно, SORMs обучаются предсказывать правильность конечного ответа при многократной выборке из текущей политики (в отличие от ORMs, где выборка происходит только один раз). Наши эксперименты показывают, что SORMs могут более точно обнаруживать ошибочные шаги рассуждений по сравнению с ORMs, что улучшает точность последующих уточнений. Затем мы обучаем глобальные модели уточнения, которые принимают на вход только вопрос и черновое решение, предсказывая исправленное решение, а также локальные модели уточнения, которые дополнительно принимают на вход критику, указывающую на место первой ошибки в рассуждениях. Мы генерируем обучающие данные для обеих моделей синтетически, повторно используя данные, применявшиеся для обучения SORM. Мы обнаруживаем, что комбинация глобальных и локальных уточнений с использованием ORM в качестве ранжировщика значительно превосходит каждый из подходов по отдельности, а также базовый подход с выборкой лучшего из трех образцов. С помощью этой стратегии мы можем повысить точность модели LLaMA-2 13B (уже дообученной с использованием обучения с подкреплением) на наборе данных GSM8K с 53\% до 65\% при жадной выборке.

English

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.

GLoRe: Когда, где и как улучшить рассуждения языковых моделей с помощью глобальных и локальных уточнений

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Аннотация

Support