TinyGSM: behalen van >80% op GSM8k met kleine taalmodellen
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
Auteurs: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
Samenvatting
Kleine modellen bieden diverse computationele voordelen, maar in hoeverre grootte cruciaal is voor probleemoplossend vermogen blijft een open vraag. Specifiek voor het oplossen van rekenproblemen op basisschoolniveau is het kleinste modelformaat dat tot nu toe nodig was om de 80\%-drempel op de GSM8K-benchmark te doorbreken, nog steeds 34B. Ons werk onderzoekt hoe hoogwaardige datasets de sleutel kunnen zijn voor kleine taalmmodellen om wiskundig redeneren te verwerven. We introduceren TinyGSM, een synthetische dataset van 12,3 miljoen rekenproblemen op basisschoolniveau, gekoppeld aan Python-oplossingen, volledig gegenereerd door GPT-3.5. Na fine-tuning op TinyGSM ontdekken we dat een duo van een 1,3B-generatiemodel en een 1,3B-verifiërend model een nauwkeurigheid van 81,5\% kan bereiken, wat beter presteert dan bestaande modellen die een veelvoud groter zijn. Dit evenaart ook de prestaties van het GPT-3.5 "leraar"-model (77,4\%), waaruit de trainingsgegevens van ons model zijn gegenereerd. Onze aanpak is eenvoudig en heeft twee belangrijke componenten: 1) de hoogwaardige dataset TinyGSM, 2) het gebruik van een verifiërend model, dat de uiteindelijke uitvoer selecteert uit meerdere kandidaatgeneraties.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.