Alcançando Raciocínio de Nível Medalha de Ouro em Olimpíadas via Escalonamento Simples e Unificado

Resumo

Progressos recentes em modelos de raciocínio avançaram substancialmente a resolução de problemas matemáticos e científicos de longo horizonte, com vários sistemas alcançando agora desempenho de nível medalha de ouro em problemas da Olimpíada Internacional de Matemática (IMO) e da Olimpíada Internacional de Física (IPhO). Neste artigo, apresentamos uma receita simples e unificada para converter um backbone de raciocínio pós-treinado em um solucionador rigoroso de nível olímpico. A receita primeiro utiliza um currículo de perplexidade reversa para SFT, a fim de incutir comportamentos rigorosos de busca de prova e autoverificação; em seguida, escala esses comportamentos por meio de um pipeline de RL em dois estágios que progride de RL com recompensas verificáveis para uma RL mais refinada no nível de provas; e, por fim, impulsiona o desempenho de resolução com escalonamento em tempo de teste. Aplicando esta receita, treinamos um backbone de 30B-A3B com SFT em cerca de 340.000 trajetórias de menos de 8 mil tokens, seguidas por 200 etapas de RL. O modelo resultante, SU-01, suporta raciocínio estável em problemas difíceis com trajetórias que excedem 100 mil tokens, ao mesmo tempo que alcança desempenho de nível medalha de ouro em competições olímpicas de matemática e física, incluindo IMO 2025/USAMO 2026 e IPhO 2024/2025. Ele também demonstra forte generalização do raciocínio científico para domínios além da matemática e da física.

English

Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.