DeepSeek-Prover: Продвижение теоремного доказательства в LLMs через синтетические данные большого масштабаDeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale
Synthetic Data
Доказательные помощники, такие как Lean, революционизировали верификацию математических доказательств, обеспечивая высокую точность и надежность. Хотя большие языковые модели (LLM) показывают потенциал в математическом рассуждении, их развитие в формальном доказательстве теорем затруднено из-за недостатка обучающих данных. Для решения этой проблемы мы предлагаем подход к созданию обширных данных доказательств Lean 4, полученных из задач математических соревнований средней школы и университетского уровня. Этот подход включает перевод задач на естественном языке в формальные утверждения, фильтрацию низкокачественных утверждений и генерацию доказательств для создания синтетических данных. После настройки модели DeepSeekMath 7B на этом синтетическом наборе данных, включающем 8 миллионов формальных утверждений с доказательствами, наша модель достигла точности генерации целого доказательства 46,3% с 64 образцами и 52% кумулятивно на тесте Lean 4 miniF2F, превзойдя базовую модель GPT-4 с 23,0% с 64 образцами и метод обучения с подкреплением поиска по дереву на уровне 41,0%. Кроме того, наша модель успешно доказала 5 из 148 задач в Lean 4 Формализованной Международной Математической Олимпиаде (FIMO), в то время как GPT-4 не смогла доказать ни одной. Эти результаты демонстрируют потенциал использования масштабных синтетических данных для улучшения возможностей доказательства теорем в LLM. Как синтетический набор данных, так и модель будут доступны для облегчения дальнейших исследований в этой перспективной области.