Programmation compétitive avec de grands modèles de raisonnement
Competitive Programming with Large Reasoning Models
February 3, 2025
Auteurs: OpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
cs.AI
Résumé
Nous montrons que l'apprentissage par renforcement appliqué aux grands modèles de langage (GML) améliore significativement les performances sur des tâches complexes de codage et de raisonnement. De plus, nous comparons deux modèles de raisonnement polyvalents - OpenAI o1 et un point de contrôle précoce de o3 - avec un système spécifique au domaine, o1-ioi, qui utilise des stratégies d'inférence conçues manuellement pour concourir à l'Olympiade internationale d'informatique (IOI) de 2024. Nous avons participé en direct à l'IOI 2024 avec o1-ioi et, en utilisant des stratégies de test élaborées manuellement, nous nous sommes classés au 49e centile. Dans des conditions de compétition moins contraignantes, o1-ioi a obtenu une médaille d'or. Cependant, lors de l'évaluation de modèles ultérieurs tels que o3, nous constatons que o3 obtient une médaille d'or sans stratégies spécifiques au domaine élaborées manuellement ou contraintes moins strictes. Nos résultats montrent que bien que des pipelines spécialisés tels que o1-ioi apportent des améliorations significatives, le modèle polyvalent à grande échelle o3 surpasse ces résultats sans recourir à des heuristiques d'inférence élaborées manuellement. De manière notable, o3 obtient une médaille d'or à l'IOI 2024 et obtient un classement Codeforces au niveau des compétiteurs humains d'élite. Dans l'ensemble, ces résultats indiquent que l'expansion de l'apprentissage par renforcement polyvalent, plutôt que de s'appuyer sur des techniques spécifiques au domaine, offre une voie robuste vers une IA de pointe dans les domaines du raisonnement, tels que la programmation compétitive.
English
We show that reinforcement learning applied to large language models (LLMs)
significantly boosts performance on complex coding and reasoning tasks.
Additionally, we compare two general-purpose reasoning models - OpenAI o1 and
an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses
hand-engineered inference strategies designed for competing in the 2024
International Olympiad in Informatics (IOI). We competed live at IOI 2024 with
o1-ioi and, using hand-crafted test-time strategies, placed in the 49th
percentile. Under relaxed competition constraints, o1-ioi achieved a gold
medal. However, when evaluating later models such as o3, we find that o3
achieves gold without hand-crafted domain-specific strategies or relaxed
constraints. Our findings show that although specialized pipelines such as
o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model
surpasses those results without relying on hand-crafted inference heuristics.
Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces
rating on par with elite human competitors. Overall, these results indicate
that scaling general-purpose reinforcement learning, rather than relying on
domain-specific techniques, offers a robust path toward state-of-the-art AI in
reasoning domains, such as competitive programming.Summary
AI-Generated Summary