TinyGSM : atteindre plus de 80 % sur GSM8k avec des petits modèles de langage
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
Auteurs: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
Résumé
Les modèles à petite échelle offrent divers avantages computationnels, mais la question de savoir dans quelle mesure la taille est critique pour les capacités de résolution de problèmes reste ouverte. Plus précisément, pour résoudre des problèmes de mathématiques de niveau primaire, la taille minimale de modèle nécessaire pour franchir la barre des 80 % sur le benchmark GSM8K reste à ce jour de 34 milliards de paramètres. Notre travail étudie comment des jeux de données de haute qualité pourraient être la clé permettant à de petits modèles linguistiques d'acquérir un raisonnement mathématique. Nous présentons TinyGSM, un jeu de données synthétique de 12,3 millions de problèmes de mathématiques de niveau primaire accompagnés de solutions en Python, entièrement généré par GPT-3.5. Après un ajustement fin sur TinyGSM, nous constatons qu'un duo composé d'un modèle de génération de 1,3 milliard de paramètres et d'un modèle de vérification de 1,3 milliard de paramètres peut atteindre une précision de 81,5 %, surpassant ainsi des modèles existants qui sont des ordres de grandeur plus grands. Ce résultat rivalise également avec la performance du modèle « enseignant » GPT-3.5 (77,4 %), à partir duquel les données d'entraînement de notre modèle sont générées. Notre approche est simple et repose sur deux composants clés : 1) le jeu de données de haute qualité TinyGSM, 2) l'utilisation d'un vérificateur, qui sélectionne les sorties finales parmi plusieurs générations candidates.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.