DeepSeek-Prover: 大規模合成データによるLLMの定理証明能力の向上DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale
Synthetic Data
Leanのような証明アシスタントは、数学的証明の検証に革命をもたらし、高い精度と信頼性を確保しています。大規模言語モデル(LLM)は数学的推論において有望ですが、形式的定理証明における進展は、訓練データの不足によって妨げられています。この問題を解決するため、高校および大学レベルの数学競技問題から派生したLean 4の証明データを大規模に生成するアプローチを提案します。このアプローチでは、自然言語の問題を形式的な命題に変換し、低品質な命題をフィルタリングし、証明を生成して合成データを作成します。この合成データセット(800万の形式的命題とその証明を含む)でDeepSeekMath 7Bモデルをファインチューニングした結果、Lean 4 miniF2Fテストにおいて、64サンプルで46.3%、累積で52%の全証明生成精度を達成し、ベースラインのGPT-4(64サンプルで23.0%)や木探索強化学習手法(41.0%)を上回りました。さらに、Lean 4 Formalized International Mathematical Olympiad(FIMO)ベンチマークでは、148問中5問の証明に成功し、GPT-4は1問も証明できませんでした。これらの結果は、大規模な合成データを活用してLLMの定理証明能力を向上させる可能性を示しています。今後の研究を促進するため、合成データセットとモデルを公開する予定です。