Обучение и оценка языковых моделей с генерацией данных на основе шаблонов
Training and Evaluating Language Models with Template-based Data Generation
November 27, 2024
Авторы: Yifan Zhang
cs.AI
Аннотация
Быстрое развитие больших языковых моделей (LLM), таких как GPT-3, PaLM и Llama, значительно изменило обработку естественного языка, продемонстрировав замечательные способности в понимании и генерации языка. Однако эти модели часто испытывают трудности с задачами, требующими сложного рассуждения, особенно в математическом решении проблем, частично из-за недостатка масштабных, высококачественных, областно-специфичных наборов данных, необходимых для обучения сложных рассуждений. Для преодоления этого ограничения мы представляем Генерацию данных на основе шаблонов (TDG), новый подход, который использует LLM (GPT-4) для автоматической генерации параметризованных мета-шаблонов, которые затем используются для синтеза огромного количества высококачественных проблем и решений. Используя TDG, мы создаем TemplateMath Part I: TemplateGSM, набор данных, включающий более 7 миллионов синтетически созданных математических задач начальной школы - каждая сопровождается кодовыми и естественными языковыми решениями - с потенциалом генерировать эффективно неограниченное количество других. Этот набор данных уменьшает дефицит масштабных математических наборов данных и служит ценным ресурсом для предварительного обучения, настройки и оценки LLM в математическом рассуждении. Наш метод не только позволяет генерировать практически бесконечные данные, но также поднимает аугментацию данных на новый уровень, используя GPT-4 для генерации мета-шаблонов, обеспечивая разнообразные и высококачественные структуры проблем. Набор данных TemplateMath Part I: TemplateGSM доступен публично по адресу https://huggingface.co/datasets/math-ai/TemplateGSM. Код доступен по адресу https://github.com/iiis-ai/TemplateMath.
English
The rapid advancement of large language models (LLMs) such as GPT-3, PaLM,
and Llama has significantly transformed natural language processing, showcasing
remarkable capabilities in understanding and generating language. However,
these models often struggle with tasks requiring complex reasoning,
particularly in mathematical problem-solving, due in part to the scarcity of
large-scale, high-quality, domain-specific datasets necessary for training
sophisticated reasoning abilities. To address this limitation, we introduce
Template-based Data Generation (TDG), a novel approach that leverages LLMs
(GPT-4) to automatically generate parameterized meta-templates, which are then
used to synthesize a vast array of high-quality problems and solutions.
Leveraging TDG, we create TemplateMath Part I: TemplateGSM, a dataset
comprising over 7 million synthetically generated grade school math
problems--each accompanied by code-based and natural language solutions--with
the potential to generate an effectively unlimited number more. This dataset
alleviates the scarcity of large-scale mathematical datasets and serves as a
valuable resource for pre-training, fine-tuning, and evaluating LLMs in
mathematical reasoning. Our method not only enables the generation of virtually
infinite data but also elevates data augmentation to a new level by using GPT-4
for meta-template generation, ensuring diverse and high-quality problem
structures. The TemplateMath Part I: TemplateGSM dataset is publicly available
at https://huggingface.co/datasets/math-ai/TemplateGSM. The code is available
at https://github.com/iiis-ai/TemplateMath.Summary
AI-Generated Summary