MaxProof: Escalamiento de demostraciones matemáticas con RL de Verificador Generativo y escalamiento a nivel de población en tiempo de prueba.

Resumen

Presentamos MaxProof, un marco de escalado de tiempo de prueba a nivel de población para la demostración matemática de nivel competitivo en la serie MiniMax-M3. M3 primero entrena tres capacidades orientadas a la demostración —generación de demostraciones, verificación de demostraciones y reparación de demostraciones condicionada por crítica— utilizando un verificador generativo de defensa en profundidad diseñado para una baja tasa de falsos positivos. Estas capacidades se fusionan en un único modelo M3 publicado. En tiempo de prueba, MaxProof trata el modelo como generador, verificador, refinador y clasificador, busca sobre una población de demostraciones candidatas y devuelve una demostración final mediante selección por torneo. Con el escalado de tiempo de prueba de MaxProof, el modelo M3 alcanza 35/42 en la IMO 2025 y 36/42 en la USAMO 2026, superando el umbral de medalla de oro humana en ambas competiciones.

English

We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.