ChatPaper.aiChatPaper

ReFT: Razonamiento con Ajuste Fino Reforzado

ReFT: Reasoning with Reinforced Fine-Tuning

January 17, 2024
Autores: Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
cs.AI

Resumen

Una forma de mejorar la capacidad de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es realizar un Ajuste Fino Supervisado (SFT, por sus siglas en inglés) utilizando anotaciones de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, este enfoque no muestra una capacidad de generalización lo suficientemente sólida, ya que el entrenamiento solo depende de los datos CoT proporcionados. En la resolución de problemas matemáticos, por ejemplo, generalmente solo hay una ruta de razonamiento anotada para cada pregunta en los datos de entrenamiento. Intuitivamente, sería mejor que el algoritmo aprendiera de múltiples rutas de razonamiento anotadas para una misma pregunta. Para abordar este problema, proponemos un enfoque simple pero efectivo llamado Ajuste Fino Reforzado (ReFT, por sus siglas en inglés) para mejorar la generalización del aprendizaje de LLMs en tareas de razonamiento, utilizando la resolución de problemas matemáticos como ejemplo. ReFT primero calienta el modelo con SFT y luego emplea aprendizaje por refuerzo en línea, específicamente el algoritmo PPO en este trabajo, para ajustar aún más el modelo, donde se muestrean automáticamente abundantes rutas de razonamiento para cada pregunta y las recompensas se derivan naturalmente de las respuestas correctas. Experimentos extensos en los conjuntos de datos GSM8K, MathQA y SVAMP muestran que ReFT supera significativamente a SFT, y el rendimiento puede mejorarse aún más combinando estrategias en tiempo de inferencia, como la votación por mayoría y la reordenación. Cabe destacar que ReFT obtiene esta mejora aprendiendo de las mismas preguntas de entrenamiento que SFT, sin depender de preguntas adicionales o aumentadas. Esto indica una capacidad de generalización superior para ReFT.
English
One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
PDF322December 15, 2024