ReFT: Reasoning mit verstärktem Fine-Tuning

papers.abstract

Eine Möglichkeit, die Fähigkeit zur logischen Schlussfolgerung von Large Language Models (LLMs) zu verbessern, besteht darin, Supervised Fine-Tuning (SFT) mit Chain-of-Thought (CoT)-Annotationen durchzuführen. Dieser Ansatz zeigt jedoch keine ausreichend starke Generalisierungsfähigkeit, da das Training ausschließlich auf den gegebenen CoT-Daten basiert. Bei der Lösung mathematischer Probleme gibt es beispielsweise in den Trainingsdaten in der Regel nur einen annotierten Lösungsweg für jede Frage. Intuitiv wäre es besser, wenn der Algorithmus aus mehreren annotierten Lösungswegen lernen könnte, die zu einer Frage gegeben sind. Um dieses Problem zu lösen, schlagen wir einen einfachen, aber effektiven Ansatz namens Reinforced Fine-Tuning (ReFT) vor, der die Generalisierungsfähigkeit von LLMs beim logischen Schlussfolgern verbessert, wobei wir die Lösung mathematischer Probleme als Beispiel verwenden. ReFT wärmt das Modell zunächst mit SFT auf und setzt dann Online-Reinforcement-Learning, speziell den PPO-Algorithmus in diesem Artikel, ein, um das Modell weiter zu verfeinern. Dabei werden automatisch zahlreiche Lösungswege zu einer Frage generiert, und die Belohnungen werden natürlich aus den korrekten Antworten abgeleitet. Umfangreiche Experimente mit den Datensätzen GSM8K, MathQA und SVAMP zeigen, dass ReFT SFT deutlich übertrifft und die Leistung potenziell weiter gesteigert werden kann, indem Inferenzzeitstrategien wie Mehrheitsabstimmung und Neubewertung kombiniert werden. Es ist zu beachten, dass ReFT die Verbesserung erzielt, indem es dieselben Trainingsfragen wie SFT verwendet, ohne auf zusätzliche oder erweiterte Trainingsfragen angewiesen zu sein. Dies deutet auf eine überlegene Generalisierungsfähigkeit von ReFT hin.

English

One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.

ReFT: Reasoning mit verstärktem Fine-Tuning

ReFT: Reasoning with Reinforced Fine-Tuning

papers.abstract

Support