TinyGSM: raggiungimento di oltre l'80% su GSM8k con modelli linguistici di piccole dimensioni

Abstract

I modelli su piccola scala offrono vari vantaggi computazionali, eppure rimane una questione aperta fino a che punto la dimensione sia critica per le capacità di risoluzione dei problemi. Nello specifico, per risolvere problemi di matematica di livello scolastico, la dimensione minima del modello finora necessaria per superare la barriera dell'80\% sul benchmark GSM8K rimane di 34B. Il nostro lavoro studia come dataset di alta qualità possano essere la chiave affinché piccoli modelli linguistici acquisiscano ragionamento matematico. Introduciamo TinyGSM, un dataset sintetico di 12,3 milioni di problemi di matematica di livello scolastico accoppiati con soluzioni in Python, generato interamente da GPT-3.5. Dopo il fine-tuning su TinyGSM, scopriamo che una coppia composta da un modello di generazione da 1,3B e un modello di verifica da 1,3B può raggiungere un'accuratezza dell'81,5\%, superando modelli esistenti che sono di ordini di grandezza più grandi. Questo risultato rivaleggia anche con le prestazioni del modello "insegnante" GPT-3.5 (77,4\%), da cui sono stati generati i dati di addestramento del nostro modello. Il nostro approccio è semplice e ha due componenti chiave: 1) il dataset di alta qualità TinyGSM, 2) l'uso di un verificatore, che seleziona gli output finali tra più generazioni candidate.

English

Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce TinyGSM, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset TinyGSM, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.

TinyGSM: raggiungimento di oltre l'80% su GSM8k con modelli linguistici di piccole dimensioni

TinyGSM: achieving >80% on GSM8k with small language models

Abstract

Support