ChatPaper.aiChatPaper

DeepTheorem: Verbesserung des logischen Denkens von LLMs für den Beweis von Theoremen durch natürliche Sprache und bestärkendes Lernen

DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

May 29, 2025
Autoren: Ziyin Zhang, Jiahao Xu, Zhiwei He, Tian Liang, Qiuzhi Liu, Yansi Li, Linfeng Song, Zhengwen Liang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Zusammenfassung

Theorem Proving dient als wichtiger Testfall zur Bewertung komplexer Schlussfolgerungsfähigkeiten in großen Sprachmodellen (LLMs). Traditionelle Ansätze des automatisierten Theorem Beweisens (ATP) stützen sich jedoch stark auf formale Beweissysteme, die sich nur schlecht mit den Stärken von LLMs deckt, die aus informellem, natürlichem Sprachwissen während des Vortrainings gewonnen werden. In dieser Arbeit schlagen wir DeepTheorem vor, ein umfassendes Framework für informelles Theorem Beweisen, das natürliche Sprache nutzt, um das mathematische Denken von LLMs zu verbessern. DeepTheorem umfasst einen groß angelegten Benchmark-Datensatz, bestehend aus 121.000 hochwertigen, IMO-Level informellen Theoremen und Beweisen aus verschiedenen mathematischen Bereichen, die sorgfältig auf Korrektheit, Schwierigkeitsgrad und Themenkategorien annotiert sind, begleitet von systematisch konstruierten, überprüfbaren Theorem-Varianten. Wir entwickeln eine neuartige Verstärkungslernstrategie (RL-Zero), die speziell auf informelles Theorem Beweisen zugeschnitten ist und die verifizierten Theorem-Varianten nutzt, um robuste mathematische Inferenz zu fördern. Zusätzlich schlagen wir umfassende Bewertungsmetriken für Ergebnisse und Prozesse vor, die die Korrektheit der Beweise und die Qualität der Schlussfolgerungsschritte untersuchen. Umfangreiche experimentelle Analysen zeigen, dass DeepTheorem die Theorem-Beweis-Leistung von LLMs im Vergleich zu bestehenden Datensätzen und überwachten Feinabstimmungsprotokollen deutlich verbessert und dabei höchste Genauigkeit und Schlussfolgerungsqualität erreicht. Unsere Ergebnisse unterstreichen das Potenzial von DeepTheorem, das automatisierte informelle Theorem Beweisen und die mathematische Exploration grundlegend voranzutreiben.
English
Theorem proving serves as a major testbed for evaluating complex reasoning abilities in large language models (LLMs). However, traditional automated theorem proving (ATP) approaches rely heavily on formal proof systems that poorly align with LLMs' strength derived from informal, natural language knowledge acquired during pre-training. In this work, we propose DeepTheorem, a comprehensive informal theorem-proving framework exploiting natural language to enhance LLM mathematical reasoning. DeepTheorem includes a large-scale benchmark dataset consisting of 121K high-quality IMO-level informal theorems and proofs spanning diverse mathematical domains, rigorously annotated for correctness, difficulty, and topic categories, accompanied by systematically constructed verifiable theorem variants. We devise a novel reinforcement learning strategy (RL-Zero) explicitly tailored to informal theorem proving, leveraging the verified theorem variants to incentivize robust mathematical inference. Additionally, we propose comprehensive outcome and process evaluation metrics examining proof correctness and the quality of reasoning steps. Extensive experimental analyses demonstrate DeepTheorem significantly improves LLM theorem-proving performance compared to existing datasets and supervised fine-tuning protocols, achieving state-of-the-art accuracy and reasoning quality. Our findings highlight DeepTheorem's potential to fundamentally advance automated informal theorem proving and mathematical exploration.

Summary

AI-Generated Summary

PDF152May 30, 2025