ChatPaper.aiChatPaper

一般的な7B規模の言語モデルは、既に強力な数学能力を有している。

Common 7B Language Models Already Possess Strong Math Capabilities

March 7, 2024
著者: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI

要旨

数学的能力は、これまで非常に大規模なモデルでのみ発現するか、あるいは数学関連の事前学習を広範に行う必要があると考えられてきた。本論文では、一般的な事前学習を施したLLaMA-2 7Bモデルが既に強力な数学的能力を示すことを明らかにする。具体的には、256回のランダム生成から最良の応答を選択した場合、GSM8KとMATHベンチマークでそれぞれ97.7%と72.0%という驚異的な精度を達成している。現在のベースモデルの主な課題は、その内在する数学的能力を一貫して引き出すことが難しい点である。特に、最初の回答の精度はGSM8KとMATHベンチマークでそれぞれ49.5%と7.9%に低下する。我々は、単にSFTデータをスケールアップするだけで、正しい回答を生成する信頼性を大幅に向上させられることを発見した。しかし、公に利用可能な数学問題の不足により、大規模なスケーリングの可能性は制約されている。この制限を克服するため、我々は合成データを採用し、それが実データとほぼ同等の効果を持ち、約100万サンプルまでスケールアップしても明確な飽和が見られないことを実証した。このシンプルなアプローチにより、LLaMA-2 7Bモデルを使用してGSM8Kで82.6%、MATHで40.6%の精度を達成し、従来のモデルをそれぞれ14.2%と20.8%上回った。また、異なる推論の複雑さやエラータイプにわたるスケーリングの挙動についての洞察も提供する。
English
Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
PDF211December 15, 2024