TinyGSM: behalen van >80% op GSM8k met kleine taalmodellen

Samenvatting

Kleine modellen bieden diverse computationele voordelen, maar in hoeverre grootte cruciaal is voor probleemoplossend vermogen blijft een open vraag. Specifiek voor het oplossen van rekenproblemen op basisschoolniveau is het kleinste modelformaat dat tot nu toe nodig was om de 80\%-drempel op de GSM8K-benchmark te doorbreken, nog steeds 34B. Ons werk onderzoekt hoe hoogwaardige datasets de sleutel kunnen zijn voor kleine taalmmodellen om wiskundig redeneren te verwerven. We introduceren TinyGSM, een synthetische dataset van 12,3 miljoen rekenproblemen op basisschoolniveau, gekoppeld aan Python-oplossingen, volledig gegenereerd door GPT-3.5. Na fine-tuning op TinyGSM ontdekken we dat een duo van een 1,3B-generatiemodel en een 1,3B-verifiërend model een nauwkeurigheid van 81,5\% kan bereiken, wat beter presteert dan bestaande modellen die een veelvoud groter zijn. Dit evenaart ook de prestaties van het GPT-3.5 "leraar"-model (77,4\%), waaruit de trainingsgegevens van ons model zijn gegenereerd. Onze aanpak is eenvoudig en heeft twee belangrijke componenten: 1) de hoogwaardige dataset TinyGSM, 2) het gebruik van een verifiërend model, dat de uiteindelijke uitvoer selecteert uit meerdere kandidaatgeneraties.

English

Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce TinyGSM, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset TinyGSM, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.

TinyGSM: behalen van >80% op GSM8k met kleine taalmodellen

TinyGSM: achieving >80% on GSM8k with small language models

Samenvatting

Support