DeepSeek-Prover-V1.5 : Exploitation des retours d'assistant de preuve pour l'apprentissage par renforcement et la recherche arborescente Monte-CarloDeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for
Reinforcement Learning and Monte-Carlo Tree Search
Nous présentons DeepSeek-Prover-V1.5, un modèle de langage open-source conçu pour la démonstration de théorèmes dans Lean 4, qui améliore DeepSeek-Prover-V1 en optimisant à la fois les processus d'entraînement et d'inférence. Pré-entraîné sur DeepSeekMath-Base avec une spécialisation dans les langages mathématiques formels, le modèle subit un fine-tuning supervisé en utilisant un ensemble de données amélioré pour la démonstration formelle de théorèmes, dérivé de DeepSeek-Prover-V1. Un raffinement supplémentaire est obtenu grâce à l'apprentissage par renforcement basé sur les retours d'un assistant de preuve (RLPAF). Au-delà de l'approche de génération de preuves en une seule passe de DeepSeek-Prover-V1, nous proposons RMaxTS, une variante de la recherche arborescente Monte-Carlo qui utilise une stratégie d'exploitation guidée par des récompenses intrinsèques pour générer des chemins de preuve diversifiés. DeepSeek-Prover-V1.5 démontre des améliorations significatives par rapport à DeepSeek-Prover-V1, atteignant de nouveaux résultats de pointe sur l'ensemble de test du benchmark miniF2F de niveau lycée (63,5%) et du benchmark ProofNet de niveau universitaire (25,3%).