MaxProof: Skalierung mathematischer Beweise mit Generative-Verifier-RL und Population-Level-Testzeit-Skalierung

Zusammenfassung

Wir präsentieren MaxProof, ein Framework zur Testzeit-Skalierung auf Populationsebene für mathematische Beweise auf Wettbewerbsniveau in der MiniMax-M3-Serie. M3 trainiert zunächst drei beweisorientierte Fähigkeiten – Beweisgenerierung, Beweisverifikation und kritikbedingte Beweisreparatur – unter Verwendung eines mehrstufigen generativen Verifizierers, der auf eine niedrige Falsch-Positiv-Rate ausgelegt ist. Diese Fähigkeiten werden zu einem einzigen veröffentlichten M3-Modell zusammengeführt. Zur Testzeit behandelt MaxProof das Modell als Generator, Verifizierer, Verfeinerer und Rangierer, durchsucht eine Population von Kandidatenbeweisen und gibt durch Turnierauswahl einen endgültigen Beweis aus. Mit der Testzeit-Skalierung durch MaxProof erreicht das M3-Modell 35/42 bei der IMO 2025 und 36/42 bei der USAMO 2026 und übertrifft damit auf beiden Wettbewerben die menschliche Goldmedaillenschwelle.

English

We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.