Достижение золотомедального уровня олимпиадного рассуждения с помощью простого и унифицированного масштабирования

Аннотация

Недавние достижения в моделях рассуждений существенно продвинули долгосрочное решение математических и научных задач, причем несколько систем теперь достигают показателей золотой медали на задачах Международной математической олимпиады (IMO) и Международной физической олимпиады (IPhO). В этой статье мы представляем простой и унифицированный рецепт преобразования предварительно обученной магистральной модели рассуждений в строгий решатель олимпиадного уровня. Рецепт сначала использует обратный перплексический план обучения для контролируемой тонкой настройки (SFT) с целью привить строгий поиск доказательств и поведение самопроверки, затем масштабирует это поведение с помощью двухэтапного конвейера обучения с подкреплением (RL), который переходит от RL с верифицируемыми вознаграждениями к более тонкому RL на уровне доказательств, и, наконец, повышает производительность решения за счет масштабирования во время тестирования. Применяя этот рецепт, мы обучаем магистральную модель 30B-A3B с помощью SFT на примерно 340K траекториях длиной до 8K токенов с последующими 200 шагами RL. Полученная модель, SU-01, поддерживает устойчивое рассуждение над сложными задачами с траекториями, превышающими 100K токенов, при этом достигая показателей золотой медали на математических и физических олимпиадах, включая IMO 2025/USAMO 2026 и IPhO 2024/2025. Она также демонстрирует сильную обобщаемость научных рассуждений на области за пределами математики и физики.

English

Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.