ChatPaper.aiChatPaper

Les modèles de langage courants de 7 milliards de paramètres possèdent déjà de solides capacités en mathématiques.

Common 7B Language Models Already Possess Strong Math Capabilities

March 7, 2024
Auteurs: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI

Résumé

Les capacités mathématiques étaient auparavant considérées comme émergeant dans les modèles de langage courants uniquement à très grande échelle ou nécessitant un pré-entraînement approfondi en mathématiques. Cet article montre que le modèle LLaMA-2 7B, avec un pré-entraînement standard, présente déjà de solides aptitudes mathématiques, comme en témoignent ses précisions impressionnantes de 97,7 % et 72,0 % sur les benchmarks GSM8K et MATH, respectivement, lors de la sélection de la meilleure réponse parmi 256 générations aléatoires. Le principal problème du modèle de base actuel réside dans la difficulté à exploiter de manière constante ses capacités mathématiques intrinsèques. Notamment, la précision pour la première réponse chute à 49,5 % et 7,9 % sur les benchmarks GSM8K et MATH, respectivement. Nous constatons que simplement augmenter les données de SFT (Supervised Fine-Tuning) peut considérablement améliorer la fiabilité de la génération de réponses correctes. Cependant, le potentiel d'un scaling extensif est limité par la rareté des questions mathématiques publiquement disponibles. Pour surmonter cette limitation, nous utilisons des données synthétiques, qui s'avèrent presque aussi efficaces que les données réelles et ne montrent aucun signe clair de saturation lorsqu'elles sont augmentées jusqu'à environ un million d'échantillons. Cette approche simple atteint une précision de 82,6 % sur GSM8K et 40,6 % sur MATH avec les modèles LLaMA-2 7B, surpassant les modèles précédents de 14,2 % et 20,8 %, respectivement. Nous fournissons également des insights sur les comportements de scaling selon différentes complexités de raisonnement et types d'erreurs.
English
Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
PDF211December 15, 2024