Schaalrelatie bij het Leren van Wiskundig Redeneren met Grote Taalmodellen

Samenvatting

Wiskundig redeneren is een uitdagende taak voor grote taalmodellen (LLM's), terwijl de schaalrelatie hiervan ten opzichte van de capaciteit van LLM's nog onvoldoende is onderzocht. In dit artikel onderzoeken we hoe de pre-trainingsverlies, de hoeveelheid begeleide data en de hoeveelheid uitgebreide data de redeneerprestaties van een begeleid LLM beïnvloeden. We ontdekken dat pre-trainingsverlies een betere indicator is van de prestaties van het model dan het aantal parameters van het model. We passen begeleide fine-tuning (SFT) toe met verschillende hoeveelheden begeleide data en vinden empirisch een log-lineair verband tussen de hoeveelheid data en de modelprestaties, waarbij we vaststellen dat betere modellen minder verbeteren met uitgebreide begeleide datasets. Om meer datamonsters uit te breiden voor het verbeteren van de modelprestaties zonder menselijke inspanning, stellen we voor om Rejection Sampling Fine-Tuning (RFT) toe te passen. RFT gebruikt begeleide modellen om correcte redeneerpaden te genereren en te verzamelen als uitgebreide fine-tuning datasets. We ontdekken dat met uitgebreide monsters die meer verschillende redeneerpaden bevatten, RFT de wiskundige redeneerprestaties van LLM's meer verbetert. We vinden ook dat RFT meer verbetering brengt voor minder presterende LLM's. Bovendien combineren we afgewezen monsters van meerdere modellen, wat LLaMA-7B naar een nauwkeurigheid van 49,3% duwt en de begeleide fine-tuning (SFT) nauwkeurigheid van 35,9% aanzienlijk overtreft.

English

Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model's performance than the model's parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning (SFT) accuracy of 35.9% significantly.

Schaalrelatie bij het Leren van Wiskundig Redeneren met Grote Taalmodellen

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

Samenvatting

Support