ChatPaper.aiChatPaper

MaxProof: Skalierung mathematischer Beweise mit Generative-Verifier-RL und Population-Level-Testzeit-Skalierung

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

June 11, 2026
Autoren: Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng
cs.AI

Zusammenfassung

Wir präsentieren MaxProof, ein Framework zur Testzeit-Skalierung auf Populationsebene für mathematische Beweise auf Wettbewerbsniveau in der MiniMax-M3-Serie. M3 trainiert zunächst drei beweisorientierte Fähigkeiten – Beweisgenerierung, Beweisverifikation und kritikbedingte Beweisreparatur – unter Verwendung eines mehrstufigen generativen Verifizierers, der auf eine niedrige Falsch-Positiv-Rate ausgelegt ist. Diese Fähigkeiten werden zu einem einzigen veröffentlichten M3-Modell zusammengeführt. Zur Testzeit behandelt MaxProof das Modell als Generator, Verifizierer, Verfeinerer und Rangierer, durchsucht eine Population von Kandidatenbeweisen und gibt durch Turnierauswahl einen endgültigen Beweis aus. Mit der Testzeit-Skalierung durch MaxProof erreicht das M3-Modell 35/42 bei der IMO 2025 und 36/42 bei der USAMO 2026 und übertrifft damit auf beiden Wettbewerben die menschliche Goldmedaillenschwelle.
English
We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.