ChatPaper.aiChatPaper

ReFT: Raciocínio com Ajuste Fino Reforçado

ReFT: Reasoning with Reinforced Fine-Tuning

January 17, 2024
Autores: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI

Resumo

Uma maneira de aprimorar a capacidade de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) é realizar o Ajuste Fino Supervisionado (SFT) utilizando anotações de Cadeia de Pensamento (CoT). No entanto, essa abordagem não demonstra uma capacidade de generalização suficientemente forte, pois o treinamento depende apenas dos dados CoT fornecidos. Na resolução de problemas matemáticos, por exemplo, geralmente há apenas um caminho de raciocínio anotado para cada questão nos dados de treinamento. Intuitivamente, seria melhor para o algoritmo aprender a partir de múltiplos caminhos de raciocínio anotados para uma mesma questão. Para abordar essa questão, propomos uma abordagem simples, porém eficaz, chamada Ajuste Fino Reforçado (ReFT), para aprimorar a generalização do aprendizado de LLMs para raciocínio, utilizando a resolução de problemas matemáticos como exemplo. O ReFT primeiro aquece o modelo com SFT e, em seguida, emprega o aprendizado por reforço on-line, especificamente o algoritmo PPO neste artigo, para ajustar ainda mais o modelo, onde uma abundância de caminhos de raciocínio é automaticamente amostrada para cada questão e as recompensas são naturalmente derivadas das respostas corretas. Experimentos extensivos nos conjuntos de dados GSM8K, MathQA e SVAMP mostram que o ReFT supera significativamente o SFT, e o desempenho pode ser potencialmente ainda mais impulsionado ao combinar estratégias de inferência, como votação majoritária e reclassificação. É importante notar que o ReFT obtém a melhoria aprendendo a partir das mesmas questões de treinamento que o SFT, sem depender de questões de treinamento extras ou aumentadas. Isso indica uma capacidade de generalização superior para o ReFT.
English
One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
PDF312December 15, 2024