Entraînement et Évaluation de Modèles de Langage avec Génération de Données Basée sur des Modèles.
Training and Evaluating Language Models with Template-based Data Generation
November 27, 2024
Auteurs: Yifan Zhang
cs.AI
Résumé
L'avancée rapide des grands modèles de langage (LLM) tels que GPT-3, PaLM et Llama a considérablement transformé le traitement du langage naturel, mettant en avant des capacités remarquables en compréhension et génération de langage. Cependant, ces modèles rencontrent souvent des difficultés dans les tâches nécessitant un raisonnement complexe, notamment dans la résolution de problèmes mathématiques, en partie en raison de la rareté de jeux de données spécifiques au domaine, à grande échelle et de haute qualité, nécessaires pour entraîner des capacités de raisonnement sophistiquées. Pour pallier cette limitation, nous introduisons la Génération de Données basée sur des Modèles de Gabarits (TDG), une approche novatrice qui exploite les LLM (GPT-4) pour générer automatiquement des méta-gabarits paramétrés, qui sont ensuite utilisés pour synthétiser une vaste gamme de problèmes et solutions de haute qualité. En exploitant la TDG, nous créons TemplateMath Partie I : TemplateGSM, un ensemble de données comprenant plus de 7 millions de problèmes mathématiques de niveau primaire générés de manière synthétique, chacun étant accompagné de solutions en langage naturel et basées sur du code, avec la capacité de générer un nombre pratiquement illimité de problèmes supplémentaires. Cet ensemble de données pallie la rareté des ensembles de données mathématiques à grande échelle et constitue une ressource précieuse pour la pré-formation, le réglage fin et l'évaluation des LLM dans le raisonnement mathématique. Notre méthode permet non seulement la génération de données virtuellement infinies, mais élève également l'augmentation de données à un nouveau niveau en utilisant GPT-4 pour la génération de méta-gabarits, garantissant des structures de problèmes diverses et de haute qualité. L'ensemble de données TemplateMath Partie I : TemplateGSM est disponible publiquement sur https://huggingface.co/datasets/math-ai/TemplateGSM. Le code est disponible sur https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM,
and Llama has significantly transformed natural language processing, showcasing
remarkable capabilities in understanding and generating language. However,
these models often struggle with tasks requiring complex reasoning,
particularly in mathematical problem-solving, due in part to the scarcity of
large-scale, high-quality, domain-specific datasets necessary for training
sophisticated reasoning abilities. To address this limitation, we introduce
Template-based Data Generation (TDG), a novel approach that leverages LLMs
(GPT-4) to automatically generate parameterized meta-templates, which are then
used to synthesize a vast array of high-quality problems and solutions.
Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset
comprising over 7 million synthetically generated grade school math
problems--each accompanied by code-based and natural language solutions--with
the potential to generate an effectively unlimited number more. This dataset
alleviates the scarcity of large-scale mathematical datasets and serves as a
valuable resource for pre-training, fine-tuning, and evaluating LLMs in
mathematical reasoning. Our method not only enables the generation of virtually
infinite data but also elevates data augmentation to a new level by using GPT-4
for meta-template generation, ensuring diverse and high-quality problem
structures. The TemplateMath Part I: TemplateGSM dataset is publicly available
at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available
at https://github.com/iiis-ai/TemplateMath.Summary
AI-Generated Summary