MaxProof: Масштабирование математических доказательств с помощью генеративно-верификационного RL и масштабирования на уровне популяции во время тестирования

Аннотация

Мы представляем MaxProof — фреймворк для масштабирования на уровне популяции во время тестирования, предназначенный для математических доказательств олимпиадного уровня в серии MiniMax-M3. M3 сначала обучает три ориентированные на доказательства способности — генерацию доказательств, верификацию доказательств и восстановление доказательств с учетом критики — с использованием генеративного верификатора с многоуровневой защитой, спроектированного для низкого уровня ложноположительных результатов. Эти способности объединяются в единую выпущенную модель M3. Во время тестирования MaxProof использует модель как генератор, верификатор, уточнитель и ранжировщик, осуществляет поиск по популяции кандидатов доказательств и возвращает одно итоговое доказательство посредством турнирного отбора. Благодаря масштабированию во время тестирования с помощью MaxProof модель M3 достигает 35/42 на IMO 2025 и 36/42 на USAMO 2026, превышая человеческий золотомедальный порог в обоих случаях.

English

We present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verification, and critique-conditioned proof repair -- using a defense-in-depth generative verifier engineered for low false-positive rate. These capabilities are merged into a single released M3 model. At test time, MaxProof treats the model as a generator, verifier, refiner, and ranker, searches over a population of candidate proofs, and returns one final proof through tournament selection. With MaxProof test-time scaling, the M3 model reaches 35/42 on IMO 2025 and 36/42 on USAMO 2026, exceeding the human gold-medal threshold on both.