Training und Evaluierung von Sprachmodellen mit datenbasiertem Vorlagen-Generierungssystem

papers.abstract

Der rasante Fortschritt großer Sprachmodelle (LLMs) wie GPT-3, PaLM und Llama hat die natürliche Sprachverarbeitung erheblich verändert und zeigt bemerkenswerte Fähigkeiten im Verstehen und Generieren von Sprache. Diese Modelle haben jedoch oft Schwierigkeiten bei Aufgaben, die komplexe Schlussfolgerungen erfordern, insbesondere bei der Lösung mathematischer Probleme, teilweise aufgrund des Mangels an groß angelegten, hochwertigen, domänenspezifischen Datensätzen, die für das Training anspruchsvoller Schlussfolgerungsfähigkeiten erforderlich sind. Um diese Einschränkung zu überwinden, stellen wir Template-basierte Datengenerierung (TDG) vor, einen neuartigen Ansatz, der LLMs (GPT-4) nutzt, um automatisch parameterisierte Metavorlagen zu generieren, die dann verwendet werden, um eine Vielzahl hochwertiger Probleme und Lösungen zu synthetisieren. Durch die Nutzung von TDG erstellen wir TemplateMath Teil I: TemplateGSM, einen Datensatz, der über 7 Millionen synthetisch generierte Mathematikaufgaben umfasst - jede begleitet von codebasierten und natürlichsprachlichen Lösungen - mit dem Potenzial, eine praktisch unbegrenzte Anzahl weiterer Aufgaben zu generieren. Dieser Datensatz lindert den Mangel an groß angelegten mathematischen Datensätzen und dient als wertvolle Ressource für das Vor-Training, Feinabstimmung und die Evaluation von LLMs im mathematischen Schlussfolgern. Unsere Methode ermöglicht nicht nur die Generierung von praktisch unendlichen Daten, sondern hebt auch die Datenanreicherung auf ein neues Niveau, indem GPT-4 für die Metavorlagengenerierung verwendet wird, um vielfältige und hochwertige Problemstrukturen sicherzustellen. Der TemplateMath Teil I: TemplateGSM Datensatz ist öffentlich unter https://huggingface.co/datasets/math-ai/TemplateGSM verfügbar. Der Code ist unter https://github.com/iiis-ai/TemplateMath verfügbar.

English

The rapid advancement of large language models (LLMs) such as GPT-3, PaLM, and Llama has significantly transformed natural language processing, showcasing remarkable capabilities in understanding and generating language. However, these models often struggle with tasks requiring complex reasoning, particularly in mathematical problem-solving, due in part to the scarcity of large-scale, high-quality, domain-specific datasets necessary for training sophisticated reasoning abilities. To address this limitation, we introduce Template-based Data Generation (TDG), a novel approach that leverages LLMs (GPT-4) to automatically generate parameterized meta-templates, which are then used to synthesize a vast array of high-quality problems and solutions. Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset comprising over 7 million synthetically generated grade school math problems--each accompanied by code-based and natural language solutions--with the potential to generate an effectively unlimited number more. This dataset alleviates the scarcity of large-scale mathematical datasets and serves as a valuable resource for pre-training, fine-tuning, and evaluating LLMs in mathematical reasoning. Our method not only enables the generation of virtually infinite data but also elevates data augmentation to a new level by using GPT-4 for meta-template generation, ensuring diverse and high-quality problem structures. The TemplateMath Part I: TemplateGSM dataset is publicly available at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available at https://github.com/iiis-ai/TemplateMath.

Training und Evaluierung von Sprachmodellen mit datenbasiertem Vorlagen-Generierungssystem

Training and Evaluating Language Models with Template-based Data Generation

papers.abstract

Support