ReFT: Рассуждения с усиленным тонким настраиванием
ReFT: Reasoning with Reinforced Fine-Tuning
January 17, 2024
Авторы: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI
Аннотация
Один из способов улучшить способность к рассуждению у крупных языковых моделей (LLM) — это проведение контролируемого тонкого настройки (SFT) с использованием аннотаций цепочки рассуждений (CoT). Однако этот подход не демонстрирует достаточно сильной способности к обобщению, поскольку обучение основывается только на предоставленных данных CoT. Например, в решении математических задач в обучающих данных обычно присутствует только один аннотированный путь рассуждений для каждого вопроса. Интуитивно было бы лучше, если бы алгоритм обучался на нескольких аннотированных путях рассуждений для одного вопроса. Чтобы решить эту проблему, мы предлагаем простой, но эффективный подход под названием Усиленное Тонкое Настройка (ReFT), который улучшает способность к обобщению при обучении LLM для рассуждений, используя в качестве примера решение математических задач. ReFT сначала разогревает модель с помощью SFT, а затем применяет онлайн-обучение с подкреплением, в частности алгоритм PPO, для дальнейшего тонкого настройки модели, где автоматически генерируется множество путей рассуждений для каждого вопроса, а награды естественным образом выводятся из правильных ответов. Эксперименты на наборах данных GSM8K, MathQA и SVAMP показывают, что ReFT значительно превосходит SFT, и производительность может быть дополнительно улучшена за счет комбинации стратегий на этапе вывода, таких как мажоритарное голосование и повторное ранжирование. Важно отметить, что ReFT достигает улучшений, обучаясь на тех же обучающих вопросах, что и SFT, без использования дополнительных или расширенных обучающих данных. Это указывает на превосходную способность к обобщению у ReFT.
English
One way to enhance the reasoning capability of Large Language Models (LLMs)
is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT)
annotations. This approach does not show sufficiently strong generalization
ability, however, because the training only relies on the given CoT data. In
math problem-solving, for example, there is usually only one annotated
reasoning path for each question in the training data. Intuitively, it would be
better for the algorithm to learn from multiple annotated reasoning paths given
a question. To address this issue, we propose a simple yet effective approach
called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of
learning LLMs for reasoning, with math problem-solving as an example. ReFT
first warmups the model with SFT, and then employs on-line reinforcement
learning, specifically the PPO algorithm in this paper, to further fine-tune
the model, where an abundance of reasoning paths are automatically sampled
given the question and the rewards are naturally derived from the ground-truth
answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that
ReFT significantly outperforms SFT, and the performance can be potentially
further boosted by combining inference-time strategies such as majority voting
and re-ranking. Note that ReFT obtains the improvement by learning from the
same training questions as SFT, without relying on extra or augmented training
questions. This indicates a superior generalization ability for ReFT.