Масштабируемость в обучении математическому рассуждению с использованием крупных языковых моделей
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
August 3, 2023
Авторы: Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, Chang Zhou
cs.AI
Аннотация
Математические рассуждения представляют собой сложную задачу для больших языковых моделей (LLM), при этом масштабируемость их производительности в зависимости от мощности LLM изучена недостаточно. В данной статье мы исследуем, как потеря на этапе предварительного обучения, объем размеченных данных и объем дополнительных данных влияют на способность LLM к рассуждениям. Мы обнаруживаем, что потеря на этапе предварительного обучения является более точным индикатором производительности модели, чем количество параметров модели. Мы применяем контролируемое тонкое настройку (SFT) с различным объемом размеченных данных и эмпирически устанавливаем логарифмически-линейную зависимость между объемом данных и производительностью модели, а также обнаруживаем, что более качественные модели улучшаются меньше при увеличении размеченных наборов данных. Для увеличения количества данных с целью улучшения производительности модели без участия человека мы предлагаем использовать тонкую настройку с отбором по отклонению (RFT). RFT использует контролируемые модели для генерации и сбора корректных путей рассуждений в качестве дополнительных наборов данных для тонкой настройки. Мы обнаруживаем, что с увеличением количества уникальных путей рассуждений в дополнительных данных RFT сильнее улучшает способность LLM к математическим рассуждениям. Также мы выясняем, что RFT приносит больше улучшений для менее производительных LLM. Кроме того, мы комбинируем отобранные данные от нескольких моделей, что позволяет модели LLaMA-7B достичь точности 49,3%, значительно превосходя результат контролируемой тонкой настройки (SFT) с точностью 35,9%.
English
Mathematical reasoning is a challenging task for large language models
(LLMs), while the scaling relationship of it with respect to LLM capacity is
under-explored. In this paper, we investigate how the pre-training loss,
supervised data amount, and augmented data amount influence the reasoning
performances of a supervised LLM. We find that pre-training loss is a better
indicator of the model's performance than the model's parameter count. We apply
supervised fine-tuning (SFT) with different amounts of supervised data and
empirically find a log-linear relation between data amount and model
performance, and we find better models improve less with enlarged supervised
datasets. To augment more data samples for improving model performances without
any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT
uses supervised models to generate and collect correct reasoning paths as
augmented fine-tuning datasets. We find with augmented samples containing more
distinct reasoning paths, RFT improves mathematical reasoning performance more
for LLMs. We also find RFT brings more improvement for less performant LLMs.
Furthermore, we combine rejection samples from multiple models which push
LLaMA-7B to an accuracy of 49.3% and outperforms the supervised fine-tuning
(SFT) accuracy of 35.9% significantly.