ChatPaper.aiChatPaper

Entrenamiento y Evaluación de Modelos de Lenguaje con Generación de Datos Basada en Plantillas

Training and Evaluating Language Models with Template-based Data Generation

November 27, 2024
Autores: Yifan Zhang
cs.AI

Resumen

El rápido avance de los modelos de lenguaje grandes (LLMs) como GPT-3, PaLM y Llama ha transformado significativamente el procesamiento del lenguaje natural, mostrando capacidades notables en comprensión y generación de lenguaje. Sin embargo, estos modelos a menudo tienen dificultades con tareas que requieren razonamiento complejo, especialmente en la resolución de problemas matemáticos, debido en parte a la escasez de conjuntos de datos específicos del dominio a gran escala y de alta calidad necesarios para entrenar habilidades de razonamiento sofisticadas. Para abordar esta limitación, presentamos Generación de Datos Basada en Plantillas (TDG), un enfoque novedoso que aprovecha LLMs (GPT-4) para generar automáticamente meta-plantillas parametrizadas, las cuales se utilizan luego para sintetizar una amplia variedad de problemas y soluciones de alta calidad. Aprovechando TDG, creamos TemplateMath Parte I: TemplateGSM, un conjunto de datos que consta de más de 7 millones de problemas matemáticos de escuela primaria generados sintéticamente, cada uno acompañado de soluciones en lenguaje natural y basadas en código, con el potencial de generar un número efectivamente ilimitado más. Este conjunto de datos alivia la escasez de conjuntos de datos matemáticos a gran escala y sirve como un recurso valioso para el pre-entrenamiento, ajuste fino y evaluación de LLMs en razonamiento matemático. Nuestro método no solo permite la generación de datos virtualmente infinitos, sino que también eleva la ampliación de datos a un nuevo nivel mediante el uso de GPT-4 para la generación de meta-plantillas, asegurando estructuras de problemas diversas y de alta calidad. El conjunto de datos TemplateMath Parte I: TemplateGSM está disponible públicamente en https://huggingface.co/datasets/math-ai/TemplateGSM. El código está disponible en https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM, and Llama has significantly transformed natural language processing, showcasing remarkable capabilities in understanding and generating language. However, these models often struggle with tasks requiring complex reasoning, particularly in mathematical problem-solving, due in part to the scarcity of large-scale, high-quality, domain-specific datasets necessary for training sophisticated reasoning abilities. To address this limitation, we introduce Template-based Data Generation (TDG), a novel approach that leverages LLMs (GPT-4) to automatically generate parameterized meta-templates, which are then used to synthesize a vast array of high-quality problems and solutions. Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset comprising over 7 million synthetically generated grade school math problems--each accompanied by code-based and natural language solutions--with the potential to generate an effectively unlimited number more. This dataset alleviates the scarcity of large-scale mathematical datasets and serves as a valuable resource for pre-training, fine-tuning, and evaluating LLMs in mathematical reasoning. Our method not only enables the generation of virtually infinite data but also elevates data augmentation to a new level by using GPT-4 for meta-template generation, ensuring diverse and high-quality problem structures. The TemplateMath Part I: TemplateGSM dataset is publicly available at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available at https://github.com/iiis-ai/TemplateMath.

Summary

AI-Generated Summary

PDF33November 28, 2024