Goldmedaillen-Niveau im Olympiade-Denken durch einfache und einheitliche Skalierung
Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
May 13, 2026
Autoren: Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Reasoning-Modellen haben die langfristige mathematische und wissenschaftliche Problemlösung erheblich vorangebracht, wobei mehrere Systeme mittlerweile Goldmedaillen-Niveau bei Aufgaben der Internationalen Mathematik-Olympiade (IMO) und der Internationalen Physik-Olympiade (IPhO) erreichen. In dieser Arbeit stellen wir ein einfaches und einheitliches Rezept vor, um ein nachtrainiertes Reasoning-Backbone in einen strengen olympiadetauglichen Löser zu verwandeln. Das Rezept nutzt zunächst ein Reverse-Perplexitäts-Curriculum für SFT, um rigoroses Beweissuch- und Selbstüberprüfungsverhalten zu vermitteln, skaliert dieses Verhalten dann durch eine zweistufige RL-Pipeline, die von RL mit überprüfbaren Belohnungen zu feinerem Beweis-Ebene-RL übergeht, und steigert schließlich die Lösungsleistung durch Testzeit-Skalierung. Durch Anwendung dieses Rezepts trainieren wir ein 30B-A3B-Backbone mit SFT auf etwa 340.000 Teil-8K-Token-Trajektorien, gefolgt von 200 RL-Schritten. Das resultierende Modell, SU-01, unterstützt stabiles Schlussfolgern bei schwierigen Problemen mit Trajektorien über 100.000 Token und erreicht Goldmedaillen-Niveau bei mathematischen und physikalischen Olympiaden, einschließlich IMO 2025/USAMO 2026 und IPhO 2024/2025. Es zeigt zudem eine starke Generalisierung wissenschaftlichen Schlussfolgerns auf Bereiche jenseits von Mathematik und Physik.
English
Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.