ChatPaper.aiChatPaper

Treinando e Avaliando Modelos de Linguagem com Geração de Dados Baseada em Modelos de Template

Training and Evaluating Language Models with Template-based Data Generation

November 27, 2024
Autores: Yifan Zhang
cs.AI

Resumo

O rápido avanço dos grandes modelos de linguagem (LLMs) como GPT-3, PaLM e Llama transformou significativamente o processamento de linguagem natural, demonstrando capacidades notáveis na compreensão e geração de linguagem. No entanto, esses modelos frequentemente enfrentam dificuldades em tarefas que exigem raciocínio complexo, especialmente na resolução de problemas matemáticos, devido em parte à escassez de conjuntos de dados específicos de domínio em larga escala e de alta qualidade necessários para treinar habilidades de raciocínio sofisticadas. Para lidar com essa limitação, apresentamos a Geração de Dados Baseada em Modelos de Template (TDG), uma abordagem inovadora que aproveita LLMs (GPT-4) para gerar automaticamente meta-modelos parametrizados, que são então utilizados para sintetizar uma vasta gama de problemas e soluções de alta qualidade. Aproveitando a TDG, criamos o TemplateMath Parte I: TemplateGSM, um conjunto de dados composto por mais de 7 milhões de problemas matemáticos de escola primária gerados sinteticamente - cada um acompanhado de soluções em linguagem natural e baseada em código - com potencial para gerar um número efetivamente ilimitado deles. Este conjunto de dados alivia a escassez de conjuntos de dados matemáticos em larga escala e serve como um recurso valioso para pré-treinamento, ajuste fino e avaliação de LLMs em raciocínio matemático. Nosso método não apenas possibilita a geração de dados virtualmente infinitos, mas também eleva a ampliação de dados a um novo nível ao utilizar o GPT-4 para geração de meta-modelos, garantindo estruturas de problemas diversas e de alta qualidade. O conjunto de dados TemplateMath Parte I: TemplateGSM está disponível publicamente em https://huggingface.co/datasets/math-ai/TemplateGSM. O código está disponível em https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM, and Llama has significantly transformed natural language processing, showcasing remarkable capabilities in understanding and generating language. However, these models often struggle with tasks requiring complex reasoning, particularly in mathematical problem-solving, due in part to the scarcity of large-scale, high-quality, domain-specific datasets necessary for training sophisticated reasoning abilities. To address this limitation, we introduce Template-based Data Generation (TDG), a novel approach that leverages LLMs (GPT-4) to automatically generate parameterized meta-templates, which are then used to synthesize a vast array of high-quality problems and solutions. Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset comprising over 7 million synthetically generated grade school math problems--each accompanied by code-based and natural language solutions--with the potential to generate an effectively unlimited number more. This dataset alleviates the scarcity of large-scale mathematical datasets and serves as a valuable resource for pre-training, fine-tuning, and evaluating LLMs in mathematical reasoning. Our method not only enables the generation of virtually infinite data but also elevates data augmentation to a new level by using GPT-4 for meta-template generation, ensuring diverse and high-quality problem structures. The TemplateMath Part I: TemplateGSM dataset is publicly available at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available at https://github.com/iiis-ai/TemplateMath.

Summary

AI-Generated Summary

PDF33November 28, 2024