ChatPaper.aiChatPaper

MaxProof: Escalando Prova Matemática com RL Gerador-Verificador e Escalabilidade em Tempo de Teste em Nível Populacional

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

June 11, 2026
Autores: Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng
cs.AI

Resumo

Apresentamos o MaxProof, um framework de escalonamento em tempo de teste a nível populacional para provas matemáticas de nível competitivo na série MiniMax-M3. O M3 primeiro treina três capacidades orientadas a provas — geração de provas, verificação de provas e reparo de provas condicionado a críticas — utilizando um verificador generativo de defesa em profundidade projetado para baixa taxa de falsos positivos. Essas capacidades são integradas em um único modelo M3 disponibilizado. Em tempo de teste, o MaxProof trata o modelo como gerador, verificador, refinador e ranqueador, busca em uma população de provas candidatas e retorna uma prova final por meio de seleção por torneio. Com o escalonamento em tempo de teste do MaxProof, o modelo M3 alcança 35/42 na IMO 2025 e 36/42 na USAMO 2026, superando o limiar humano de medalha de ouro em ambas.
English
We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.