Alcançando Raciocínio de Nível Medalha de Ouro em Olimpíadas via Escalonamento Simples e Unificado
Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
May 13, 2026
Autores: Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng
cs.AI
Resumo
Progressos recentes em modelos de raciocínio avançaram substancialmente a resolução de problemas matemáticos e científicos de longo horizonte, com vários sistemas alcançando agora desempenho de nível medalha de ouro em problemas da Olimpíada Internacional de Matemática (IMO) e da Olimpíada Internacional de Física (IPhO). Neste artigo, apresentamos uma receita simples e unificada para converter um backbone de raciocínio pós-treinado em um solucionador rigoroso de nível olímpico. A receita primeiro utiliza um currículo de perplexidade reversa para SFT, a fim de incutir comportamentos rigorosos de busca de prova e autoverificação; em seguida, escala esses comportamentos por meio de um pipeline de RL em dois estágios que progride de RL com recompensas verificáveis para uma RL mais refinada no nível de provas; e, por fim, impulsiona o desempenho de resolução com escalonamento em tempo de teste. Aplicando esta receita, treinamos um backbone de 30B-A3B com SFT em cerca de 340.000 trajetórias de menos de 8 mil tokens, seguidas por 200 etapas de RL. O modelo resultante, SU-01, suporta raciocínio estável em problemas difíceis com trajetórias que excedem 100 mil tokens, ao mesmo tempo que alcança desempenho de nível medalha de ouro em competições olímpicas de matemática e física, incluindo IMO 2025/USAMO 2026 e IPhO 2024/2025. Ele também demonstra forte generalização do raciocínio científico para domínios além da matemática e da física.
English
Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.