ChatPaper.aiChatPaper

Масштабируемость в обучении математическому рассуждению с использованием крупных языковых моделей

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

August 3, 2023
Авторы: Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, Chang Zhou
cs.AI

Аннотация

Математические рассуждения представляют собой сложную задачу для больших языковых моделей (LLM), при этом масштабируемость их производительности в зависимости от мощности LLM изучена недостаточно. В данной статье мы исследуем, как потеря на этапе предварительного обучения, объем размеченных данных и объем дополнительных данных влияют на способность LLM к рассуждениям. Мы обнаруживаем, что потеря на этапе предварительного обучения является более точным индикатором производительности модели, чем количество параметров модели. Мы применяем контролируемое тонкое настройку (SFT) с различным объемом размеченных данных и эмпирически устанавливаем логарифмически-линейную зависимость между объемом данных и производительностью модели, а также обнаруживаем, что более качественные модели улучшаются меньше при увеличении размеченных наборов данных. Для увеличения количества данных с целью улучшения производительности модели без участия человека мы предлагаем использовать тонкую настройку с отбором по отклонению (RFT). RFT использует контролируемые модели для генерации и сбора корректных путей рассуждений в качестве дополнительных наборов данных для тонкой настройки. Мы обнаруживаем, что с увеличением количества уникальных путей рассуждений в дополнительных данных RFT сильнее улучшает способность LLM к математическим рассуждениям. Также мы выясняем, что RFT приносит больше улучшений для менее производительных LLM. Кроме того, мы комбинируем отобранные данные от нескольких моделей, что позволяет модели LLaMA-7B достичь точности 49,3%, значительно превосходя результат контролируемой тонкой настройки (SFT) с точностью 35,9%.
English
Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model's performance than the model's parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning (SFT) accuracy of 35.9% significantly.
PDF210December 15, 2024