ChatPaper.aiChatPaper

ReFT: 強化学習によるファインチューニングを用いた推論

ReFT: Reasoning with Reinforced Fine-Tuning

January 17, 2024
著者: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI

要旨

大規模言語モデル(LLM)の推論能力を向上させる一つの方法として、Chain-of-Thought(CoT)アノテーションを用いた教師ありファインチューニング(SFT)が挙げられます。しかし、このアプローチは十分に強力な汎化能力を示しません。なぜなら、トレーニングが与えられたCoTデータのみに依存しているためです。例えば、数学問題解決においては、トレーニングデータ内の各問題に対して通常は1つのアノテーションされた推論パスしか存在しません。直感的には、アルゴリズムが与えられた問題に対して複数のアノテーションされた推論パスから学習することが望ましいと考えられます。この問題に対処するため、本論文では、数学問題解決を例として、LLMの推論学習の汎化能力を向上させるためのシンプルかつ効果的なアプローチであるReinforced Fine-Tuning(ReFT)を提案します。ReFTはまずSFTでモデルをウォームアップし、その後、オンライン強化学習、具体的には本論文ではPPOアルゴリズムを用いて、モデルをさらにファインチューニングします。この際、与えられた問題に対して大量の推論パスが自動的にサンプリングされ、報酬は正解の答えから自然に導出されます。GSM8K、MathQA、SVAMPデータセットでの大規模な実験により、ReFTがSFTを大幅に上回ることが示され、さらに多数決や再ランキングなどの推論時戦略を組み合わせることで性能がさらに向上する可能性があることが確認されました。ReFTは、SFTと同じトレーニング問題から学習することで改善を達成しており、追加または拡張されたトレーニング問題に依存していない点に注意してください。これは、ReFTの優れた汎化能力を示唆しています。
English
One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
PDF322December 15, 2024