ReFT : Raisonnement par Fine-Tuning Renforcé
ReFT: Reasoning with Reinforced Fine-Tuning
January 17, 2024
Auteurs: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI
Résumé
Une manière d'améliorer les capacités de raisonnement des grands modèles de langage (LLMs) consiste à effectuer un réglage fin supervisé (SFT) en utilisant des annotations de chaîne de pensée (CoT). Cependant, cette approche ne démontre pas une capacité de généralisation suffisamment forte, car l'entraînement repose uniquement sur les données CoT fournies. Par exemple, dans la résolution de problèmes mathématiques, il n'existe généralement qu'un seul chemin de raisonnement annoté pour chaque question dans les données d'entraînement. Intuitivement, il serait préférable que l'algorithme apprenne à partir de multiples chemins de raisonnement annotés pour une même question. Pour résoudre ce problème, nous proposons une approche simple mais efficace appelée Réglage Fin Renforcé (ReFT) pour améliorer la généralisation des LLMs dans le raisonnement, en prenant la résolution de problèmes mathématiques comme exemple. ReFT commence par initialiser le modèle avec un SFT, puis utilise un apprentissage par renforcement en ligne, spécifiquement l'algorithme PPO dans cet article, pour affiner davantage le modèle, où une multitude de chemins de raisonnement sont automatiquement échantillonnés pour chaque question et les récompenses sont naturellement dérivées des réponses correctes. Des expériences approfondies sur les ensembles de données GSM8K, MathQA et SVAMP montrent que ReFT surpasse significativement le SFT, et la performance peut potentiellement être encore améliorée en combinant des stratégies au moment de l'inférence telles que le vote majoritaire et le reclassement. Il est à noter que ReFT obtient cette amélioration en apprenant à partir des mêmes questions d'entraînement que le SFT, sans dépendre de questions supplémentaires ou augmentées. Cela indique une capacité de généralisation supérieure pour ReFT.
English
One way to enhance the reasoning capability of Large Language Models (LLMs)
is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT)
annotations. This approach does not show sufficiently strong generalization
ability, however, because the training only relies on the given CoT data. In
math problem-solving, for example, there is usually only one annotated
reasoning path for each question in the training data. Intuitively, it would be
better for the algorithm to learn from multiple annotated reasoning paths given
a question. To address this issue, we propose a simple yet effective approach
called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of
learning LLMs for reasoning, with math problem-solving as an example. ReFT
first warmups the model with SFT, and then employs on-line reinforcement
learning, specifically the PPO algorithm in this paper, to further fine-tune
the model, where an abundance of reasoning paths are automatically sampled
given the question and the rewards are naturally derived from the ground-truth
answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that
ReFT significantly outperforms SFT, and the performance can be potentially
further boosted by combining inference-time strategies such as majority voting
and re-ranking. Note that ReFT obtains the improvement by learning from the
same training questions as SFT, without relying on extra or augmented training
questions. This indicates a superior generalization ability for ReFT.