Het trainen en evalueren van taalmodellen met op sjablonen gebaseerde gegevensgeneratie
Training and Evaluating Language Models with Template-based Data Generation
November 27, 2024
Auteurs: Yifan Zhang
cs.AI
Samenvatting
De snelle vooruitgang van grote taalmodellen (LLM's) zoals GPT-3, PaLM en Llama heeft het natuurlijke taalverwerking aanzienlijk getransformeerd, waarbij opmerkelijke mogelijkheden worden getoond in het begrijpen en genereren van taal. Echter, deze modellen worstelen vaak met taken die complex redeneren vereisen, met name bij wiskundige probleemoplossing, deels als gevolg van het gebrek aan grootschalige, hoogwaardige, domeinspecifieke datasets die nodig zijn voor het trainen van geavanceerde redeneervaardigheden. Om deze beperking aan te pakken, introduceren we Template-gebaseerde Gegevensgeneratie (TDG), een nieuw benadering die gebruikmaakt van LLM's (GPT-4) om automatisch geparametriseerde meta-templates te genereren, die vervolgens worden gebruikt om een breed scala aan hoogwaardige problemen en oplossingen te synthetiseren. Door TDG te benutten, creëren we TemplateMath Deel I: TemplateGSM, een dataset bestaande uit meer dan 7 miljoen synthetisch gegenereerde wiskundige problemen voor de basisschool - elk vergezeld van op code gebaseerde en natuurlijke taaloplossingen - met het potentieel om effectief een onbeperkt aantal meer te genereren. Deze dataset vermindert het gebrek aan grootschalige wiskundige datasets en dient als een waardevolle bron voor pre-training, fine-tuning en het evalueren van LLM's in wiskundig redeneren. Onze methode maakt niet alleen de generatie van praktisch oneindige gegevens mogelijk, maar tilt ook gegevensaugmentatie naar een nieuw niveau door GPT-4 te gebruiken voor meta-templategeneratie, waarbij diverse en hoogwaardige probleemstructuren worden gegarandeerd. De TemplateMath Deel I: TemplateGSM-dataset is openbaar beschikbaar op https://huggingface.co/datasets/math-ai/TemplateGSM. De code is beschikbaar op https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM,
and Llama has significantly transformed natural language processing, showcasing
remarkable capabilities in understanding and generating language. However,
these models often struggle with tasks requiring complex reasoning,
particularly in mathematical problem-solving, due in part to the scarcity of
large-scale, high-quality, domain-specific datasets necessary for training
sophisticated reasoning abilities. To address this limitation, we introduce
Template-based Data Generation (TDG), a novel approach that leverages LLMs
(GPT-4) to automatically generate parameterized meta-templates, which are then
used to synthesize a vast array of high-quality problems and solutions.
Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset
comprising over 7 million synthetically generated grade school math
problems--each accompanied by code-based and natural language solutions--with
the potential to generate an effectively unlimited number more. This dataset
alleviates the scarcity of large-scale mathematical datasets and serves as a
valuable resource for pre-training, fine-tuning, and evaluating LLMs in
mathematical reasoning. Our method not only enables the generation of virtually
infinite data but also elevates data augmentation to a new level by using GPT-4
for meta-template generation, ensuring diverse and high-quality problem
structures. The TemplateMath Part I: TemplateGSM dataset is publicly available
at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available
at https://github.com/iiis-ai/TemplateMath.Summary
AI-Generated Summary