Atteindre un raisonnement de niveau médaille d'or aux Olympiades par une mise à l'échelle simple et unifiée

Résumé

Les récents progrès dans les modèles de raisonnement ont considérablement amélioré la résolution de problèmes mathématiques et scientifiques à long horizon, plusieurs systèmes atteignant désormais un niveau de performance équivalent à la médaille d'or lors des Olympiades Internationales de Mathématiques (IMO) et de Physique (IPhO). Dans cet article, nous présentons une recette simple et unifiée pour transformer un modèle de raisonnement post-entraîné en un solveur rigoureux de niveau olympique. Cette recette commence par un curriculum de perplexité inversée pour le SFT afin d'instaurer des comportements rigoureux de recherche de preuves et d'auto-vérification, puis amplifie ces comportements via un pipeline d'apprentissage par renforcement en deux étapes, passant d'un RL avec récompenses vérifiables à un RL plus subtil au niveau de la preuve, et enfin améliore les performances de résolution par un passage à l'échelle au moment du test. En appliquant cette recette, nous entraînons un modèle de base 30B-A3B avec SFT sur environ 340 000 trajectoires de moins de 8 000 tokens, suivi de 200 étapes de RL. Le modèle résultant, SU-01, supporte un raisonnement stable sur des problèmes difficiles avec des trajectoires dépassant 100 000 tokens, tout en atteignant un niveau de performance équivalent à la médaille d'or dans les compétitions d'olympiades mathématiques et physiques, notamment IMO 2025/USAMO 2026 et IPhO 2024/2025. Il démontre également une forte généralisation du raisonnement scientifique à des domaines au-delà des mathématiques et de la physique.

English

Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.