MaxProof : Mise à l'échelle des preuves mathématiques avec RL génératif-vérificateur et mise à l'échelle au niveau population au moment du test
MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling
June 11, 2026
Auteurs: Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng
cs.AI
Résumé
Nous présentons MaxProof, un cadre de mise à l’échelle au niveau de la population en phase de test pour la preuve mathématique de niveau compétition, dans la série MiniMax-M3. M3 entraîne d’abord trois capacités orientées vers la preuve — génération de preuves, vérification de preuves et réparation de preuves conditionnée par une critique — à l’aide d’un vérificateur génératif à défense en profondeur conçu pour un faible taux de faux positifs. Ces capacités sont fusionnées en un seul modèle M3 publié. En phase de test, MaxProof traite le modèle comme un générateur, un vérificateur, un raffineur et un classeur, explore une population de preuves candidates, et renvoie une preuve finale via une sélection par tournoi. Grâce à la mise à l’échelle en phase de test de MaxProof, le modèle M3 atteint 35/42 aux Olympiades Internationales de Mathématiques 2025 et 36/42 aux Olympiades de Mathématiques des États-Unis 2026, dépassant le seuil de la médaille d’or humaine dans les deux cas.
English
We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.