ChatPaper.aiChatPaper

MathScale: 数学的推論のための命令チューニングのスケーリング

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

March 5, 2024
著者: Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei
cs.AI

要旨

大規模言語モデル(LLM)は問題解決において顕著な能力を発揮しています。しかし、数学的問題を解く能力は依然として不十分です。本論文では、最先端のLLM(例:{\tt GPT-3.5})を用いて高品質な数学的推論データを作成するためのシンプルでスケーラブルな手法であるMathScaleを提案します。人間の数学学習における認知メカニズムに着想を得て、まずシードとなる数学問題からトピックと知識ポイントを抽出し、次に概念グラフを構築します。この概念グラフを用いて新しい数学問題を生成します。MathScaleは、生成する数学データセットのサイズ軸に沿って効果的なスケーラビリティを示します。その結果、200万の数学問題-回答ペアを含む数学的推論データセット(MathScaleQA)を作成しました。LLMの数学的推論能力を包括的に評価するために、K-12、大学、競技レベルの数学問題をカバーする10のデータセット(GSM8KやMATHを含む)からなる数学文章題ベンチマーク{\sc MwpBench}を構築しました。MathScaleQAをオープンソースのLLM(例:LLaMA-2やMistral)のファインチューニングに適用した結果、数学的推論能力が大幅に向上しました。{\sc MwpBench}で評価した結果、MathScale-7Bは全てのデータセットにおいて最先端の性能を達成し、同等サイズの最良のモデルをマイクロ平均精度で42.9%、マクロ平均精度で43.7%上回りました。
English
Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.
PDF172December 15, 2024