MaxProof: Escalando Prova Matemática com RL Gerador-Verificador e Escalabilidade em Tempo de Teste em Nível Populacional

Resumo

Apresentamos o MaxProof, um framework de escalonamento em tempo de teste a nível populacional para provas matemáticas de nível competitivo na série MiniMax-M3. O M3 primeiro treina três capacidades orientadas a provas — geração de provas, verificação de provas e reparo de provas condicionado a críticas — utilizando um verificador generativo de defesa em profundidade projetado para baixa taxa de falsos positivos. Essas capacidades são integradas em um único modelo M3 disponibilizado. Em tempo de teste, o MaxProof trata o modelo como gerador, verificador, refinador e ranqueador, busca em uma população de provas candidatas e retorna uma prova final por meio de seleção por torneio. Com o escalonamento em tempo de teste do MaxProof, o modelo M3 alcança 35/42 na IMO 2025 e 36/42 na USAMO 2026, superando o limiar humano de medalha de ouro em ambas.

English

We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.