DeepSeek-Prover-V1.5: Aprovechando la Retroalimentación del Asistente de Pruebas para Aprendizaje por Refuerzo y Búsqueda de Árbol Monte CarloDeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for
Reinforcement Learning and Monte-Carlo Tree Search
Presentamos DeepSeek-Prover-V1.5, un modelo de lenguaje de código abierto diseñado para la demostración de teoremas en Lean 4, que mejora DeepSeek-Prover-V1 al optimizar tanto los procesos de entrenamiento como de inferencia. Pre-entrenado en DeepSeekMath-Base con especialización en lenguajes matemáticos formales, el modelo se somete a un ajuste fino supervisado utilizando un conjunto de datos mejorado de demostración de teoremas formales derivado de DeepSeek-Prover-V1. Además, se logra un mayor refinamiento a través del aprendizaje por refuerzo a partir de la retroalimentación del asistente de pruebas (RLPAF). Más allá del enfoque de generación de pruebas completas de un solo paso de DeepSeek-Prover-V1, proponemos RMaxTS, una variante de la búsqueda de árboles de Monte Carlo que emplea una estrategia de exploración impulsada por recompensas intrínsecas para generar caminos de prueba diversos. DeepSeek-Prover-V1.5 muestra mejoras significativas sobre DeepSeek-Prover-V1, logrando nuevos resultados de vanguardia en el conjunto de pruebas del benchmark miniF2F de nivel de secundaria (63.5%) y en el benchmark ProofNet de nivel universitario (25.3%).