Goldmedaillen-Niveau im Olympiade-Denken durch einfache und einheitliche Skalierung

Zusammenfassung

Jüngste Fortschritte bei Reasoning-Modellen haben die langfristige mathematische und wissenschaftliche Problemlösung erheblich vorangebracht, wobei mehrere Systeme mittlerweile Goldmedaillen-Niveau bei Aufgaben der Internationalen Mathematik-Olympiade (IMO) und der Internationalen Physik-Olympiade (IPhO) erreichen. In dieser Arbeit stellen wir ein einfaches und einheitliches Rezept vor, um ein nachtrainiertes Reasoning-Backbone in einen strengen olympiadetauglichen Löser zu verwandeln. Das Rezept nutzt zunächst ein Reverse-Perplexitäts-Curriculum für SFT, um rigoroses Beweissuch- und Selbstüberprüfungsverhalten zu vermitteln, skaliert dieses Verhalten dann durch eine zweistufige RL-Pipeline, die von RL mit überprüfbaren Belohnungen zu feinerem Beweis-Ebene-RL übergeht, und steigert schließlich die Lösungsleistung durch Testzeit-Skalierung. Durch Anwendung dieses Rezepts trainieren wir ein 30B-A3B-Backbone mit SFT auf etwa 340.000 Teil-8K-Token-Trajektorien, gefolgt von 200 RL-Schritten. Das resultierende Modell, SU-01, unterstützt stabiles Schlussfolgern bei schwierigen Problemen mit Trajektorien über 100.000 Token und erreicht Goldmedaillen-Niveau bei mathematischen und physikalischen Olympiaden, einschließlich IMO 2025/USAMO 2026 und IPhO 2024/2025. Es zeigt zudem eine starke Generalisierung wissenschaftlichen Schlussfolgerns auf Bereiche jenseits von Mathematik und Physik.

English

Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.