Logrando razonamiento de nivel de medalla de oro en Olimpiadas mediante un escalado simple y unificado

Resumen

Los avances recientes en modelos de razonamiento han impulsado significativamente la resolución de problemas matemáticos y científicos de horizonte largo, con varios sistemas alcanzando ahora el nivel de medalla de oro en problemas de la Olimpiada Internacional de Matemáticas (IMO) y la Olimpiada Internacional de Física (IPhO). En este artículo, presentamos una receta simple y unificada para convertir un modelo base de razonamiento post-entrenado en un solucionador riguroso de nivel olímpico. La receta primero utiliza un currículo de perplejidad inversa para SFT con el fin de inculcar comportamientos rigurosos de búsqueda de pruebas y autoverificación; luego, escala estos comportamientos mediante un pipeline de RL en dos etapas que progresa desde RL con recompensas verificables hasta una RL más refinada a nivel de pruebas; y finalmente, mejora el rendimiento de resolución con escalamiento en tiempo de prueba. Aplicando esta receta, entrenamos un modelo base de 30B-A3B con SFT en aproximadamente 340 mil trayectorias de menos de 8 mil tokens, seguidas de 200 pasos de RL. El modelo resultante, SU-01, admite un razonamiento estable en problemas difíciles con trayectorias que superan los 100 mil tokens, al tiempo que alcanza un rendimiento de nivel de medalla de oro en competiciones olímpicas de matemáticas y física, incluyendo IMO 2025/USAMO 2026 e IPhO 2024/2025. También demuestra una fuerte generalización del razonamiento científico a dominios más allá de las matemáticas y la física.

English

Recent progress in reasoning models has substantially advanced long-horizon mathematical and scientific problem solving, with several systems now reaching gold-medal-level performance on International Mathematical Olympiad (IMO) and International Physics Olympiad (IPhO) problems. In this paper, we introduce a simple and unified recipe for converting a post-trained reasoning backbone into a rigorous olympiad-level solver. The recipe first uses a reverse-perplexity curriculum for SFT to instill rigorous proof-search and self-checking behaviors, then scales these behaviors through a two-stage RL pipeline that progresses from RL with verifiable rewards to more delicate proof-level RL, and finally boosts solving performance with test-time scaling. Applying this recipe, we train a 30B-A3B backbone with SFT on around 340K sub-8K-token trajectories followed by 200 RL steps. The resulting model, SU-01, supports stable reasoning on difficult problems with trajectories exceeding 100K tokens, while achieving gold-medal-level performance on mathematical and physical olympiad competitions, including IMO 2025/USAMO 2026 and IPhO 2024/2025. It also demonstrates strong generalization of scientific reasoning to domains beyond mathematics and physics.