Training und Evaluierung von Sprachmodellen mit datenbasiertem Vorlagen-Generierungssystem
Training and Evaluating Language Models with Template-based Data Generation
November 27, 2024
Autoren: Yifan Zhang
cs.AI
Zusammenfassung
Der rasante Fortschritt großer Sprachmodelle (LLMs) wie GPT-3, PaLM und Llama hat die natürliche Sprachverarbeitung erheblich verändert und zeigt bemerkenswerte Fähigkeiten im Verstehen und Generieren von Sprache. Diese Modelle haben jedoch oft Schwierigkeiten bei Aufgaben, die komplexe Schlussfolgerungen erfordern, insbesondere bei der Lösung mathematischer Probleme, teilweise aufgrund des Mangels an groß angelegten, hochwertigen, domänenspezifischen Datensätzen, die für das Training anspruchsvoller Schlussfolgerungsfähigkeiten erforderlich sind. Um diese Einschränkung zu überwinden, stellen wir Template-basierte Datengenerierung (TDG) vor, einen neuartigen Ansatz, der LLMs (GPT-4) nutzt, um automatisch parameterisierte Metavorlagen zu generieren, die dann verwendet werden, um eine Vielzahl hochwertiger Probleme und Lösungen zu synthetisieren. Durch die Nutzung von TDG erstellen wir TemplateMath Teil I: TemplateGSM, einen Datensatz, der über 7 Millionen synthetisch generierte Mathematikaufgaben umfasst - jede begleitet von codebasierten und natürlichsprachlichen Lösungen - mit dem Potenzial, eine praktisch unbegrenzte Anzahl weiterer Aufgaben zu generieren. Dieser Datensatz lindert den Mangel an groß angelegten mathematischen Datensätzen und dient als wertvolle Ressource für das Vor-Training, Feinabstimmung und die Evaluation von LLMs im mathematischen Schlussfolgern. Unsere Methode ermöglicht nicht nur die Generierung von praktisch unendlichen Daten, sondern hebt auch die Datenanreicherung auf ein neues Niveau, indem GPT-4 für die Metavorlagengenerierung verwendet wird, um vielfältige und hochwertige Problemstrukturen sicherzustellen. Der TemplateMath Teil I: TemplateGSM Datensatz ist öffentlich unter https://huggingface.co/datasets/math-ai/TemplateGSM verfügbar. Der Code ist unter https://github.com/iiis-ai/TemplateMath verfügbar.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM,
and Llama has significantly transformed natural language processing, showcasing
remarkable capabilities in understanding and generating language. However,
these models often struggle with tasks requiring complex reasoning,
particularly in mathematical problem-solving, due in part to the scarcity of
large-scale, high-quality, domain-specific datasets necessary for training
sophisticated reasoning abilities. To address this limitation, we introduce
Template-based Data Generation (TDG), a novel approach that leverages LLMs
(GPT-4) to automatically generate parameterized meta-templates, which are then
used to synthesize a vast array of high-quality problems and solutions.
Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset
comprising over 7 million synthetically generated grade school math
problems--each accompanied by code-based and natural language solutions--with
the potential to generate an effectively unlimited number more. This dataset
alleviates the scarcity of large-scale mathematical datasets and serves as a
valuable resource for pre-training, fine-tuning, and evaluating LLMs in
mathematical reasoning. Our method not only enables the generation of virtually
infinite data but also elevates data augmentation to a new level by using GPT-4
for meta-template generation, ensuring diverse and high-quality problem
structures. The TemplateMath Part I: TemplateGSM dataset is publicly available
at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available
at https://github.com/iiis-ai/TemplateMath.Summary
AI-Generated Summary