ChatPaper.aiChatPaper

Достижение золотомедального уровня олимпиадного рассуждения с помощью простого и унифицированного масштабирования

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

May 13, 2026
Авторы: Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng
cs.AI

Аннотация

Недавние достижения в моделях рассуждений существенно продвинули долгосрочное решение математических и научных задач, причем несколько систем теперь достигают показателей золотой медали на задачах Международной математической олимпиады (IMO) и Международной физической олимпиады (IPhO). В этой статье мы представляем простой и унифицированный рецепт преобразования предварительно обученной магистральной модели рассуждений в строгий решатель олимпиадного уровня. Рецепт сначала использует обратный перплексический план обучения для контролируемой тонкой настройки (SFT) с целью привить строгий поиск доказательств и поведение самопроверки, затем масштабирует это поведение с помощью двухэтапного конвейера обучения с подкреплением (RL), который переходит от RL с верифицируемыми вознаграждениями к более тонкому RL на уровне доказательств, и, наконец, повышает производительность решения за счет масштабирования во время тестирования. Применяя этот рецепт, мы обучаем магистральную модель 30B-A3B с помощью SFT на примерно 340K траекториях длиной до 8K токенов с последующими 200 шагами RL. Полученная модель, SU-01, поддерживает устойчивое рассуждение над сложными задачами с траекториями, превышающими 100K токенов, при этом достигая показателей золотой медали на математических и физических олимпиадах, включая IMO 2025/USAMO 2026 и IPhO 2024/2025. Она также демонстрирует сильную обобщаемость научных рассуждений на области за пределами математики и физики.
English
Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.