GAR: Generatives Adversarielles Verstärkungslernen für Formales Theorembeweisen

papers.abstract

Das Lösen mathematischer Probleme durch verifizierbare Sprachen wie Lean hat sowohl die Mathematik- als auch die Informatikgemeinschaft erheblich beeinflusst. Aktuelle State-of-the-Art-Modelle werden oft mit kostspieligem Online-Reinforcement-Learning (RL) oder Experteniteration trainiert. Diese Ansätze stützen sich jedoch auf feste Problemsätze, was zu ineffizientem Training führt und die Fähigkeit des Modells einschränkt, komplexe Probleme zu bewältigen. Um diese Einschränkungen zu überwinden, schlagen wir GAR vor: Generative Adversarial Reinforcement Learning, ein umfassendes RL-Trainingsframework, das den Problemkomponisten und den Löser gemeinsam in einer adversarischen Schleife trainiert. GAR führt einen impliziten Mechanismus für Curriculum-Learning ein, der die Schwierigkeit der Aufgaben mit der sich entwickelnden Fähigkeit des Beweisers abstimmt. Dadurch wird die Trainingseffizienz verbessert und die Leistung bei der Bewältigung fortgeschrittener Theoreme gesteigert. Experimente zeigen, dass mit GAR-Training Goedel-Prover-V2-8B und DeepSeek-Prover-V2-7B eine durchschnittliche relative Verbesserung in pass@32 von 4,20 % auf dem MiniF2F-Test-Benchmark erreichen, während der pass@32-Wert von DeepSeek-Prover-V2 auf ProofNet-Test von 22,58 % auf 25,81 % steigt. Über die formale Beweisführung hinaus etabliert GAR ein allgemeines RL-Paradigma für die Ko-Evolution von Problemgenerierung und -lösung in verifizierbaren Umgebungen.

English

Solving math problems through verifiable languages such as Lean has significantly impacted both the mathematics and computer science communities. Current state-of-the-art models are often trained with expensive online Reinforcement Learning (RL) or expert iteration. However, these approaches rely on fixed problem sets, which causes inefficient training and limits the model to tackle complex problems. To overcome these limitations, we propose GAR: Generative Adversarial Reinforcement learning, a comprehensive RL training framework that jointly trains the problem composer and solver in an adversarial loop. GAR introduces an implicit curriculum learning mechanism, which aligns task difficulty with the prover's evolving capability. It thereby improves the training efficiency and enables stronger performance of proving advanced theorems. Experiments show that with GAR training, Goedel-Prover-V2-8B and DeepSeek-Prover-V2-7B achieve an average relative improvement in pass@32 of 4.20% on MiniF2F-Test benchmark, while DeepSeek-Prover-V2's pass@32 on ProofNet-Test increases from 22.58% to 25.81%. Beyond formal proving, GAR establishes a general RL paradigm for co-evolution of problem generation and solving under verifiable environments.

GAR: Generatives Adversarielles Verstärkungslernen für Formales Theorembeweisen

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

papers.abstract

Support