Schaalrelatie bij het Leren van Wiskundig Redeneren met Grote Taalmodellen
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
August 3, 2023
Auteurs: Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, Chang Zhou
cs.AI
Samenvatting
Wiskundig redeneren is een uitdagende taak voor grote taalmodellen (LLM's), terwijl de schaalrelatie hiervan ten opzichte van de capaciteit van LLM's nog onvoldoende is onderzocht. In dit artikel onderzoeken we hoe de pre-trainingsverlies, de hoeveelheid begeleide data en de hoeveelheid uitgebreide data de redeneerprestaties van een begeleid LLM beïnvloeden. We ontdekken dat pre-trainingsverlies een betere indicator is van de prestaties van het model dan het aantal parameters van het model. We passen begeleide fine-tuning (SFT) toe met verschillende hoeveelheden begeleide data en vinden empirisch een log-lineair verband tussen de hoeveelheid data en de modelprestaties, waarbij we vaststellen dat betere modellen minder verbeteren met uitgebreide begeleide datasets. Om meer datamonsters uit te breiden voor het verbeteren van de modelprestaties zonder menselijke inspanning, stellen we voor om Rejection Sampling Fine-Tuning (RFT) toe te passen. RFT gebruikt begeleide modellen om correcte redeneerpaden te genereren en te verzamelen als uitgebreide fine-tuning datasets. We ontdekken dat met uitgebreide monsters die meer verschillende redeneerpaden bevatten, RFT de wiskundige redeneerprestaties van LLM's meer verbetert. We vinden ook dat RFT meer verbetering brengt voor minder presterende LLM's. Bovendien combineren we afgewezen monsters van meerdere modellen, wat LLaMA-7B naar een nauwkeurigheid van 49,3% duwt en de begeleide fine-tuning (SFT) nauwkeurigheid van 35,9% aanzienlijk overtreft.
English
Mathematical reasoning is a challenging task for large language models
(LLMs), while the scaling relationship of it with respect to LLM capacity is
under-explored. In this paper, we investigate how the pre-training loss,
supervised data amount, and augmented data amount influence the reasoning
performances of a supervised LLM. We find that pre-training loss is a better
indicator of the model's performance than the model's parameter count. We apply
supervised fine-tuning (SFT) with different amounts of supervised data and
empirically find a log-linear relation between data amount and model
performance, and we find better models improve less with enlarged supervised
datasets. To augment more data samples for improving model performances without
any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT
uses supervised models to generate and collect correct reasoning paths as
augmented fine-tuning datasets. We find with augmented samples containing more
distinct reasoning paths, RFT improves mathematical reasoning performance more
for LLMs. We also find RFT brings more improvement for less performant LLMs.
Furthermore, we combine rejection samples from multiple models which push
LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning
(SFT) accuracy of 35.9% significantly.