Relación de Escalabilidad en el Aprendizaje del Razonamiento Matemático con Modelos de Lenguaje a Gran Escala
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
August 3, 2023
Autores: Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, Chang Zhou
cs.AI
Resumen
El razonamiento matemático es una tarea desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), mientras que la relación de escalabilidad con respecto a la capacidad de los LLMs está poco explorada. En este artículo, investigamos cómo la pérdida durante el pre-entrenamiento, la cantidad de datos supervisados y la cantidad de datos aumentados influyen en el rendimiento de razonamiento de un LLM supervisado. Descubrimos que la pérdida durante el pre-entrenamiento es un mejor indicador del rendimiento del modelo que el número de parámetros del modelo. Aplicamos ajuste fino supervisado (SFT, por sus siglas en inglés) con diferentes cantidades de datos supervisados y encontramos empíricamente una relación log-lineal entre la cantidad de datos y el rendimiento del modelo, observando que los modelos mejores mejoran menos con conjuntos de datos supervisados ampliados. Para aumentar más muestras de datos y mejorar el rendimiento del modelo sin esfuerzo humano, proponemos aplicar Ajuste Fino con Muestreo por Rechazo (RFT, por sus siglas en inglés). RFT utiliza modelos supervisados para generar y recopilar trayectorias de razonamiento correctas como conjuntos de datos aumentados para el ajuste fino. Descubrimos que, con muestras aumentadas que contienen más trayectorias de razonamiento distintas, RFT mejora más el rendimiento del razonamiento matemático en los LLMs. También encontramos que RFT aporta una mayor mejora para los LLMs con menor rendimiento. Además, combinamos muestras de rechazo de múltiples modelos, lo que lleva a LLaMA-7B a una precisión del 49.3%, superando significativamente la precisión del ajuste fino supervisado (SFT) del 35.9%.
English
Mathematical reasoning is a challenging task for large language models
(LLMs), while the scaling relationship of it with respect to LLM capacity is
under-explored. In this paper, we investigate how the pre-training loss,
supervised data amount, and augmented data amount influence the reasoning
performances of a supervised LLM. We find that pre-training loss is a better
indicator of the model's performance than the model's parameter count. We apply
supervised fine-tuning (SFT) with different amounts of supervised data and
empirically find a log-linear relation between data amount and model
performance, and we find better models improve less with enlarged supervised
datasets. To augment more data samples for improving model performances without
any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT
uses supervised models to generate and collect correct reasoning paths as
augmented fine-tuning datasets. We find with augmented samples containing more
distinct reasoning paths, RFT improves mathematical reasoning performance more
for LLMs. We also find RFT brings more improvement for less performant LLMs.
Furthermore, we combine rejection samples from multiple models which push
LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning
(SFT) accuracy of 35.9% significantly.