ChatPaper.aiChatPaper

Entraînement et Évaluation de Modèles de Langage avec Génération de Données Basée sur des Modèles.

Training and Evaluating Language Models with Template-based Data Generation

November 27, 2024
Auteurs: Yifan Zhang
cs.AI

Résumé

L'avancée rapide des grands modèles de langage (LLM) tels que GPT-3, PaLM et Llama a considérablement transformé le traitement du langage naturel, mettant en avant des capacités remarquables en compréhension et génération de langage. Cependant, ces modèles rencontrent souvent des difficultés dans les tâches nécessitant un raisonnement complexe, notamment dans la résolution de problèmes mathématiques, en partie en raison de la rareté de jeux de données spécifiques au domaine, à grande échelle et de haute qualité, nécessaires pour entraîner des capacités de raisonnement sophistiquées. Pour pallier cette limitation, nous introduisons la Génération de Données basée sur des Modèles de Gabarits (TDG), une approche novatrice qui exploite les LLM (GPT-4) pour générer automatiquement des méta-gabarits paramétrés, qui sont ensuite utilisés pour synthétiser une vaste gamme de problèmes et solutions de haute qualité. En exploitant la TDG, nous créons TemplateMath Partie I : TemplateGSM, un ensemble de données comprenant plus de 7 millions de problèmes mathématiques de niveau primaire générés de manière synthétique, chacun étant accompagné de solutions en langage naturel et basées sur du code, avec la capacité de générer un nombre pratiquement illimité de problèmes supplémentaires. Cet ensemble de données pallie la rareté des ensembles de données mathématiques à grande échelle et constitue une ressource précieuse pour la pré-formation, le réglage fin et l'évaluation des LLM dans le raisonnement mathématique. Notre méthode permet non seulement la génération de données virtuellement infinies, mais élève également l'augmentation de données à un nouveau niveau en utilisant GPT-4 pour la génération de méta-gabarits, garantissant des structures de problèmes diverses et de haute qualité. L'ensemble de données TemplateMath Partie I : TemplateGSM est disponible publiquement sur https://huggingface.co/datasets/math-ai/TemplateGSM. Le code est disponible sur https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM, and Llama has significantly transformed natural language processing, showcasing remarkable capabilities in understanding and generating language. However, these models often struggle with tasks requiring complex reasoning, particularly in mathematical problem-solving, due in part to the scarcity of large-scale, high-quality, domain-specific datasets necessary for training sophisticated reasoning abilities. To address this limitation, we introduce Template-based Data Generation (TDG), a novel approach that leverages LLMs (GPT-4) to automatically generate parameterized meta-templates, which are then used to synthesize a vast array of high-quality problems and solutions. Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset comprising over 7 million synthetically generated grade school math problems--each accompanied by code-based and natural language solutions--with the potential to generate an effectively unlimited number more. This dataset alleviates the scarcity of large-scale mathematical datasets and serves as a valuable resource for pre-training, fine-tuning, and evaluating LLMs in mathematical reasoning. Our method not only enables the generation of virtually infinite data but also elevates data augmentation to a new level by using GPT-4 for meta-template generation, ensuring diverse and high-quality problem structures. The TemplateMath Part I: TemplateGSM dataset is publicly available at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available at https://github.com/iiis-ai/TemplateMath.

Summary

AI-Generated Summary

PDF33November 28, 2024