Het bereiken van redeneren op goudmedaille-niveau voor Olympiades via eenvoudige en uniforme schaling

Samenvatting

Recente vooruitgang in redeneringsmodellen heeft het oplossen van wiskundige en wetenschappelijke problemen op lange termijn aanzienlijk verbeterd, waarbij verschillende systemen nu prestaties op goudmedaille-niveau behalen bij problemen van de Internationale Wiskunde Olympiade (IMO) en de Internationale Natuurkunde Olympiade (IPhO). In dit artikel introduceren we een eenvoudig en uniform recept om een post-getrainde redeneringsbackbone om te zetten in een rigoureuze olympiade-oplosser. Het recept gebruikt eerst een curriculum met omgekeerde perplexiteit voor SFT om rigoureus bewijszoek- en zelfcontrole-gedrag te installeren, schaalt deze gedragingen vervolgens op via een tweetraps RL-pijplijn die overgaat van RL met verifieerbare beloningen naar een fijnmaziger bewijsniveau-RL, en verhoogt ten slotte de oplossingsprestaties met testtijd-schaalvergroting. Door dit recept toe te passen trainen we een 30B-A3B backbone met SFT op ongeveer 340K trajecten van minder dan 8K tokens, gevolgd door 200 RL-stappen. Het resulterende model, SU-01, ondersteunt stabiel redeneren bij moeilijke problemen met trajecten van meer dan 100K tokens, terwijl het prestaties op goudmedaille-niveau behaalt in wiskundige en natuurkundige olympiadecompetities, waaronder IMO 2025/USAMO 2026 en IPhO 2024/2025. Het vertoont ook sterke generalisatie van wetenschappelijk redeneren naar domeinen buiten wiskunde en natuurkunde.

English

Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.