Mathesis: К формальному доказательству теорем на основе естественных языков

Аннотация

Последние достижения в области больших языковых моделей демонстрируют значительный потенциал для формального рассуждения. Однако большинство теорем-пруверов на основе LLM долгое время ограничивались необходимостью использования экспертно написанных формальных утверждений в качестве входных данных, что сужало их применимость к реальным задачам, выраженным на естественном языке. Мы устраняем этот пробел с помощью Mathesis — первого сквозного конвейера доказательства теорем, обрабатывающего неформальные формулировки задач. Он включает Mathesis-Autoformalizer — первый автоформализатор, использующий обучение с подкреплением для улучшения способности формализации задач на естественном языке, поддерживаемый нашей новой структурой LeanScorer для тонкой оценки качества формализации. Также предлагается Mathesis-Prover, который генерирует формальные доказательства из формализованных утверждений. Для оценки применимости сквозного формального доказательства теорем в реальных условиях мы представляем Gaokao-Formal — эталонный набор из 488 сложных задач из национального вступительного экзамена в вузы Китая. Наш подход тщательно разработан, с детальным изучением каждого компонента. Эксперименты демонстрируют эффективность Mathesis: автоформализатор превосходит лучший базовый метод на 22% по проходному баллу на Gaokao-Formal. Полная система превосходит другие комбинации моделей, достигая 64% точности на MiniF2F с pass@32 и рекордных 18% на Gaokao-Formal.

English

Recent advances in large language models show strong promise for formal reasoning. However, most LLM-based theorem provers have long been constrained by the need for expert-written formal statements as inputs, limiting their applicability to real-world problems expressed in natural language. We tackle this gap with Mathesis, the first end-to-end theorem proving pipeline processing informal problem statements. It contributes Mathesis-Autoformalizer, the first autoformalizer using reinforcement learning to enhance the formalization ability of natural language problems, aided by our novel LeanScorer framework for nuanced formalization quality assessment. It also proposes a Mathesis-Prover, which generates formal proofs from the formalized statements. To evaluate the real-world applicability of end-to-end formal theorem proving, we introduce Gaokao-Formal, a benchmark of 488 complex problems from China's national college entrance exam. Our approach is carefully designed, with a thorough study of each component. Experiments demonstrate Mathesis's effectiveness, with the autoformalizer outperforming the best baseline by 22% in pass-rate on Gaokao-Formal. The full system surpasses other model combinations, achieving 64% accuracy on MiniF2F with pass@32 and a state-of-the-art 18% on Gaokao-Formal.

Mathesis: К формальному доказательству теорем на основе естественных языков

Mathesis: Towards Formal Theorem Proving from Natural Languages

Аннотация

Support