TinyGSM : atteindre plus de 80 % sur GSM8k avec des petits modèles de langage

papers.abstract

Les modèles à petite échelle offrent divers avantages computationnels, mais la question de savoir dans quelle mesure la taille est critique pour les capacités de résolution de problèmes reste ouverte. Plus précisément, pour résoudre des problèmes de mathématiques de niveau primaire, la taille minimale de modèle nécessaire pour franchir la barre des 80 % sur le benchmark GSM8K reste à ce jour de 34 milliards de paramètres. Notre travail étudie comment des jeux de données de haute qualité pourraient être la clé permettant à de petits modèles linguistiques d'acquérir un raisonnement mathématique. Nous présentons TinyGSM, un jeu de données synthétique de 12,3 millions de problèmes de mathématiques de niveau primaire accompagnés de solutions en Python, entièrement généré par GPT-3.5. Après un ajustement fin sur TinyGSM, nous constatons qu'un duo composé d'un modèle de génération de 1,3 milliard de paramètres et d'un modèle de vérification de 1,3 milliard de paramètres peut atteindre une précision de 81,5 %, surpassant ainsi des modèles existants qui sont des ordres de grandeur plus grands. Ce résultat rivalise également avec la performance du modèle « enseignant » GPT-3.5 (77,4 %), à partir duquel les données d'entraînement de notre modèle sont générées. Notre approche est simple et repose sur deux composants clés : 1) le jeu de données de haute qualité TinyGSM, 2) l'utilisation d'un vérificateur, qui sélectionne les sorties finales parmi plusieurs générations candidates.

English

Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce TinyGSM, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset TinyGSM, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.

TinyGSM : atteindre plus de 80 % sur GSM8k avec des petits modèles de langage

TinyGSM: achieving >80% on GSM8k with small language models

papers.abstract

Support