DeepSeek-Prover-V1.5: Aproveitando o Feedback do Assistente de Prova para Aprendizado por Reforço e Busca em Árvore de Monte CarloDeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for
Reinforcement Learning and Monte-Carlo Tree Search
Apresentamos o DeepSeek-Prover-V1.5, um modelo de linguagem de código aberto projetado para demonstração de teoremas no Lean 4, que aprimora o DeepSeek-Prover-V1 otimizando tanto os processos de treinamento quanto de inferência. Pré-treinado no DeepSeekMath-Base com especialização em linguagens matemáticas formais, o modelo passa por ajustes supervisionados usando um conjunto de dados aprimorado de demonstração de teoremas formais derivado do DeepSeek-Prover-V1. Um refinamento adicional é alcançado por meio de aprendizado por reforço a partir do feedback do assistente de demonstração de teoremas (RLPAF). Além da abordagem de geração de prova única do DeepSeek-Prover-V1, propomos o RMaxTS, uma variante da busca de árvore Monte Carlo que emprega uma estratégia de exploração orientada por recompensa intrínseca para gerar caminhos de prova diversos. O DeepSeek-Prover-V1.5 demonstra melhorias significativas em relação ao DeepSeek-Prover-V1, alcançando novos resultados de ponta no conjunto de testes do benchmark miniF2F de nível escolar (63,5%) e no benchmark ProofNet de nível universitário (25,3%).