ReFT: 강화된 미세 조정을 통한 추론
ReFT: Reasoning with Reinforced Fine-Tuning
January 17, 2024
저자: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력을 향상시키는 한 가지 방법은
Chain-of-Thought(CoT) 주석을 사용한 지도 미세 조정(SFT)을 수행하는 것입니다.
그러나 이 접근법은 주어진 CoT 데이터에만 의존하기 때문에 충분히 강력한 일반화 능력을
보여주지 못합니다. 예를 들어, 수학 문제 해결에서 훈련 데이터의 각 질문에는 일반적으로
하나의 주석 처리된 추론 경로만 존재합니다. 직관적으로, 알고리즘이 주어진 질문에 대해
여러 주석 처리된 추론 경로로부터 학습하는 것이 더 나을 것입니다. 이 문제를 해결하기 위해
우리는 수학 문제 해결을 예로 들어, 추론을 위한 LLM 학습의 일반화 능력을 향상시키는
간단하면서도 효과적인 방법인 강화 미세 조정(ReFT)을 제안합니다. ReFT는 먼저 SFT로
모델을 워밍업한 후, 온라인 강화 학습(이 논문에서는 구체적으로 PPO 알고리즘)을 사용하여
모델을 추가로 미세 조정합니다. 이때, 질문에 대해 다양한 추론 경로가 자동으로 샘플링되고,
보상은 정답에서 자연스럽게 도출됩니다. GSM8K, MathQA, SVAMP 데이터셋에 대한 광범위한
실험 결과, ReFT는 SFT를 크게 능가하며, 다수결 투표 및 재순위와 같은 추론 시 전략을
결합하면 성능이 더욱 향상될 가능성이 있음을 보여줍니다. ReFT는 SFT와 동일한 훈련 질문을
사용하여 개선을 달성하며, 추가 또는 증강된 훈련 질문에 의존하지 않습니다. 이는 ReFT의
뛰어난 일반화 능력을 나타냅니다.
English
One way to enhance the reasoning capability of Large Language Models (LLMs)
is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT)
annotations. This approach does not show sufficiently strong generalization
ability, however, because the training only relies on the given CoT data. In
math problem-solving, for example, there is usually only one annotated
reasoning path for each question in the training data. Intuitively, it would be
better for the algorithm to learn from multiple annotated reasoning paths given
a question. To address this issue, we propose a simple yet effective approach
called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of
learning LLMs for reasoning, with math problem-solving as an example. ReFT
first warmups the model with SFT, and then employs on-line reinforcement
learning, specifically the PPO algorithm in this paper, to further fine-tune
the model, where an abundance of reasoning paths are automatically sampled
given the question and the rewards are naturally derived from the ground-truth
answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that
ReFT significantly outperforms SFT, and the performance can be potentially
further boosted by combining inference-time strategies such as majority voting
and re-ranking. Note that ReFT obtains the improvement by learning from the
same training questions as SFT, without relying on extra or augmented training
questions. This indicates a superior generalization ability for ReFT.