Математическая шкала: масштабирование настройки инструкций для математического рассуждения
MathScale: Scaling Instruction Tuning for Mathematical Reasoning
March 5, 2024
Авторы: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в решении проблем. Однако их профессионализм в решении математических задач остается недостаточным. Мы предлагаем MathScale, простой и масштабируемый метод создания высококачественных данных для математического рассуждения с использованием передовых LLM (например, GPT-3.5). Вдохновленный когнитивным механизмом в человеческом математическом обучении, он сначала извлекает темы и знания из исходных математических вопросов, а затем строит концептуальный граф, который затем используется для генерации новых математических вопросов. MathScale обладает эффективной масштабируемостью вдоль оси размера создаваемого нами математического набора данных. В результате мы создаем набор данных для математического рассуждения (MathScaleQA), содержащий два миллиона пар вопрос-ответ по математике. Для всесторонней оценки математических способностей LLM мы создаем MwpBench, набор данных для математических текстовых задач, который представляет собой коллекцию из десяти наборов данных (включая GSM8K и MATH), охватывающих математические задачи уровня K-12, колледжа и соревнований. Мы применяем MathScaleQA для настройки на открытых исходных кодах LLM (например, LLaMA-2 и Mistral), что приводит к значительному улучшению способностей в математическом рассуждении. Оцененный на MwpBench, MathScale-7B достигает передовых показателей по всем наборам данных, превосходя своих лучших конкурентов аналогичного размера на 42,9% в микро-средней точности и 43,7% в макро-средней точности соответственно.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
problem-solving. However, their proficiency in solving mathematical problems
remains inadequate. We propose MathScale, a simple and scalable method to
create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt
GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning,
it first extracts topics and knowledge points from seed math questions and then
build a concept graph, which is subsequently used to generate new math
questions. MathScale exhibits effective scalability along the size axis of the
math dataset that we generate. As a result, we create a mathematical reasoning
dataset (MathScaleQA) containing two million math question-answer pairs. To
evaluate mathematical reasoning abilities of LLMs comprehensively, we construct
{\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten
datasets (including GSM8K and MATH) covering K-12, college, and competition
level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g.,
LLaMA-2 and Mistral), resulting in significantly improved capabilities in
mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves
state-of-the-art performance across all datasets, surpassing its best peers of
equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average
accuracy, respectively.