DeepSeek-Prover-V1.5: Использование обратной связи доказательного помощника для обучения с подкреплением и поиска дерева Монте-Карло.DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for
Reinforcement Learning and Monte-Carlo Tree Search
Мы представляем DeepSeek-Prover-V1.5, открытую языковую модель, разработанную для доказательства теорем в Lean 4, которая улучшает DeepSeek-Prover-V1 путем оптимизации процессов как обучения, так и вывода. Обученная на DeepSeekMath-Base с специализацией на формальных математических языках, модель проходит надзорное дообучение с использованием улучшенного формального набора данных для доказательства теорем, полученного из DeepSeek-Prover-V1. Дальнейшее совершенствование достигается с помощью обучения с подкреплением на основе обратной связи от помощника по доказательствам (RLPAF). Помимо подхода к генерации целого доказательства за один проход, присущего DeepSeek-Prover-V1, мы предлагаем RMaxTS, вариант поиска по дереву Монте-Карло, который использует стратегию исследования, основанную на внутренней награде, для генерации разнообразных путей доказательства. DeepSeek-Prover-V1.5 демонстрирует значительные улучшения по сравнению с DeepSeek-Prover-V1, достигая новых результатов на тестовом наборе данных школьного уровня miniF2F (63.5%) и на уровне бакалавриата ProofNet (25.3%).