Het trainen en evalueren van taalmodellen met op sjablonen gebaseerde gegevensgeneratie

Samenvatting

De snelle vooruitgang van grote taalmodellen (LLM's) zoals GPT-3, PaLM en Llama heeft het natuurlijke taalverwerking aanzienlijk getransformeerd, waarbij opmerkelijke mogelijkheden worden getoond in het begrijpen en genereren van taal. Echter, deze modellen worstelen vaak met taken die complex redeneren vereisen, met name bij wiskundige probleemoplossing, deels als gevolg van het gebrek aan grootschalige, hoogwaardige, domeinspecifieke datasets die nodig zijn voor het trainen van geavanceerde redeneervaardigheden. Om deze beperking aan te pakken, introduceren we Template-gebaseerde Gegevensgeneratie (TDG), een nieuw benadering die gebruikmaakt van LLM's (GPT-4) om automatisch geparametriseerde meta-templates te genereren, die vervolgens worden gebruikt om een breed scala aan hoogwaardige problemen en oplossingen te synthetiseren. Door TDG te benutten, creëren we TemplateMath Deel I: TemplateGSM, een dataset bestaande uit meer dan 7 miljoen synthetisch gegenereerde wiskundige problemen voor de basisschool - elk vergezeld van op code gebaseerde en natuurlijke taaloplossingen - met het potentieel om effectief een onbeperkt aantal meer te genereren. Deze dataset vermindert het gebrek aan grootschalige wiskundige datasets en dient als een waardevolle bron voor pre-training, fine-tuning en het evalueren van LLM's in wiskundig redeneren. Onze methode maakt niet alleen de generatie van praktisch oneindige gegevens mogelijk, maar tilt ook gegevensaugmentatie naar een nieuw niveau door GPT-4 te gebruiken voor meta-templategeneratie, waarbij diverse en hoogwaardige probleemstructuren worden gegarandeerd. De TemplateMath Deel I: TemplateGSM-dataset is openbaar beschikbaar op https://huggingface.co/datasets/math-ai/TemplateGSM. De code is beschikbaar op https://github.com/iiis-ai/TemplateMath.

English

The rapid advancement of large language models (LLMs) such as GPT-3, PaLM, and Llama has significantly transformed natural language processing, showcasing remarkable capabilities in understanding and generating language. However, these models often struggle with tasks requiring complex reasoning, particularly in mathematical problem-solving, due in part to the scarcity of large-scale, high-quality, domain-specific datasets necessary for training sophisticated reasoning abilities. To address this limitation, we introduce Template-based Data Generation (TDG), a novel approach that leverages LLMs (GPT-4) to automatically generate parameterized meta-templates, which are then used to synthesize a vast array of high-quality problems and solutions. Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset comprising over 7 million synthetically generated grade school math problems--each accompanied by code-based and natural language solutions--with the potential to generate an effectively unlimited number more. This dataset alleviates the scarcity of large-scale mathematical datasets and serves as a valuable resource for pre-training, fine-tuning, and evaluating LLMs in mathematical reasoning. Our method not only enables the generation of virtually infinite data but also elevates data augmentation to a new level by using GPT-4 for meta-template generation, ensuring diverse and high-quality problem structures. The TemplateMath Part I: TemplateGSM dataset is publicly available at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available at https://github.com/iiis-ai/TemplateMath.

Het trainen en evalueren van taalmodellen met op sjablonen gebaseerde gegevensgeneratie

Training and Evaluating Language Models with Template-based Data Generation

Samenvatting

Summary

Support

Support