ChatPaper.aiChatPaper

Goedel-Prover-V2: Escalonando a Prova de Teoremas Formais com Síntese de Dados Escalonada e Autocorreção

Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

August 5, 2025
Autores: Yong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin
cs.AI

Resumo

Apresentamos o Goedel-Prover-V2, uma série de modelos de linguagem de código aberto que estabelecem um novo estado da arte na prova automática de teoremas. Construído com base no pipeline padrão de iteração de especialistas e aprendizado por reforço, nossa abordagem incorpora três inovações principais: (1) Síntese de dados escalonada: Geramos tarefas sintéticas de dificuldade crescente para treinar o modelo a dominar teoremas cada vez mais complexos; (2) Autocorreção guiada por verificador: Permitimos que o modelo revise iterativamente suas provas, aproveitando o feedback do compilador Lean; (3) Média de modelos: Combinamos checkpoints de modelos para mitigar a diminuição na diversidade das saídas do modelo em estágios posteriores do treinamento. Nosso modelo pequeno, Goedel-Prover-V2-8B, alcança 84,6% de pass@32 no MiniF2F e supera o DeepSeek-Prover-V2-671B na mesma métrica, apesar de ser 80 vezes menor. Nosso modelo principal, Goedel-Prover-V2-32B, atinge 88,1% no MiniF2F em pass@32 no modo padrão e 90,4% no modo de autocorreção, superando o SOTA anterior por uma grande margem. Além disso, nosso modelo principal resolve 86 problemas no PutnamBench em pass@184, garantindo o primeiro lugar entre os modelos de código aberto no leaderboard, superando o recorde do DeepSeek-Prover-V2-671B de resolver 47 problemas em pass@1024, com um tamanho de modelo e orçamento computacional significativamente menores. No momento de seu lançamento (julho-agosto de 2025), o Goedel-Prover-V2 alcança o melhor desempenho geral entre todos os provadores de teoremas de código aberto. Ele também está entre os modelos de melhor desempenho—incluindo sistemas de código fechado com desempenho publicamente relatado—sob um orçamento computacional restrito no momento do teste. Nossos modelos, código e dados são disponibilizados em https://github.com/Goedel-LM/Goedel-Prover-V2.
English
We introduce Goedel-Prover-V2, a series of open-source language models that set a new state-of-the-art in automated theorem proving. Built on the standard expert iteration and reinforcement learning pipeline, our approach incorporates three key innovations: (1) Scaffolded data synthesis: We generate synthetic tasks of increasing difficulty to train the model to master increasingly complex theorems; (2) Verifier-guided self-correction: We enable the model to iteratively revise its proofs by leveraging feedback from the Lean compiler; (3) Model averaging: We merge model checkpoints to mitigate the decrease in model output diversity in later stages of training. Our small model, Goedel-Prover-V2-8B, reaches 84.6% pass@32 on MiniF2F and outperforms DeepSeek-Prover-V2-671B under the same metric, despite being 80X smaller. Our flagship model, Goedel-Prover-V2-32B, achieves 88.1% on MiniF2F at pass@32 in standard mode and 90.4% in self-correction mode, outperforming prior SOTA by a large margin. Additionally, our flagship model solves 86 problems on PutnamBench at pass@184, securing the first place among open-source models on the leaderboard, surpassing DeepSeek-Prover-V2-671B's record of solving 47 problems by pass@1024 with a significantly smaller model size and compute budget. At the time of its release (July-August 2025), Goedel-Prover-V2 achieves the strongest overall performance among all open-source theorem provers. It also ranks among the top-performing models--including closed-source systems with publicly reported performance--under a constrained test-time compute budget. Our models, code, and data are released at https://github.com/Goedel-LM/Goedel-Prover-V2.
PDF113August 6, 2025