ChatPaper.aiChatPaper

ReFT: Redeneren met Versterkte Fine-Tuning

ReFT: Reasoning with Reinforced Fine-Tuning

January 17, 2024
Auteurs: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI

Samenvatting

Een manier om het redeneervermogen van Large Language Models (LLMs) te verbeteren, is door Supervised Fine-Tuning (SFT) uit te voeren met behulp van Chain-of-Thought (CoT) annotaties. Deze aanpak vertoont echter geen voldoende sterke generalisatiecapaciteit, omdat de training alleen afhankelijk is van de gegeven CoT-data. Bij het oplossen van wiskundige problemen is er bijvoorbeeld meestal slechts één geannoteerd redeneerpad voor elke vraag in de trainingsdata. Intuïtief zou het beter zijn als het algoritme leert van meerdere geannoteerde redeneerpaden bij een vraag. Om dit probleem aan te pakken, stellen we een eenvoudige maar effectieve benadering voor, genaamd Reinforced Fine-Tuning (ReFT), om de generaliseerbaarheid van het leren van LLMs voor redeneren te verbeteren, met wiskundeproblemen als voorbeeld. ReFT warmt eerst het model op met SFT, en gebruikt vervolgens online reinforcement learning, specifiek het PPO-algoritme in dit artikel, om het model verder te finetunen, waarbij een overvloed aan redeneerpaden automatisch wordt gegenereerd op basis van de vraag en de beloningen natuurlijk worden afgeleid van de juiste antwoorden. Uitgebreide experimenten op de GSM8K-, MathQA- en SVAMP-datasets laten zien dat ReFT SFT significant overtreft, en de prestaties potentieel verder kunnen worden verbeterd door inferentie-tijdstrategieën zoals meerderheidsstemming en herrangschikking te combineren. Merk op dat ReFT de verbetering behaalt door te leren van dezelfde trainingsvragen als SFT, zonder te vertrouwen op extra of uitgebreide trainingsvragen. Dit duidt op een superieure generalisatiecapaciteit voor ReFT.
English
One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
PDF312December 15, 2024