Skywork-Math: 大規模言語モデルにおける数学的推論のためのデータスケーリング則 ― 物語は続くSkywork-Math: Data Scaling Laws for Mathematical Reasoning in Large
Language Models -- The Story Goes On
本論文では、大規模言語モデル(LLM)の数学的推論能力を向上させる潜在的な要因について調査する。現代のLLMにおける数学的推論能力のデータスケーリング則は飽和状態から程遠く、データ量の増加に伴ってモデルの品質が向上することを強調する。この主張を裏付けるため、我々はSkywork-Mathモデルシリーズを紹介する。これは、提案した250万インスタンスのSkywork-MathQAデータセットを用いて、一般的な7B LLMを教師ありファインチューニング(SFT)したものである。Skywork-Math 7Bは、SFTデータのみを使用して、競技レベルのMATHベンチマークで51.2%、GSM8Kベンチマークで83.9%という印象的な精度を達成し、MATHにおいて初期バージョンのGPT-4を上回った。Skywork-Mathモデルの優れた性能は、我々の新しい2段階のデータ合成とモデルSFTパイプラインに寄与しており、これには3つの異なる拡張方法と多様なシード問題セットが含まれ、Skywork-MathQAデータセットの量と質を様々な難易度レベルで保証している。最も重要なこととして、研究および産業応用におけるLLMの数学的推論能力を向上させるためのいくつかの実践的な知見を提供する。