大規模推論モデルを用いた競技プログラミング
Competitive Programming with Large Reasoning Models
February 3, 2025
著者: OpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
cs.AI
要旨
大規模言語モデル(LLMs)に適用された強化学習が、複雑なコーディングおよび推論タスクの性能を大幅に向上させることを示します。さらに、2つの汎用推論モデル、OpenAI o1 と o3 の初期チェックポイントと、2024年国際情報オリンピアード(IOI)で競技するために設計された手作業の推論戦略を使用するドメイン固有のシステムである o1-ioi を比較します。私たちは、o1-ioi でIOI 2024に出場し、手作業で作成したテスト時戦略を使用して49パーセンタイルに入賞しました。緩和された競技制約の下で、o1-ioi は金メダルを獲得しました。ただし、o3などの後のモデルを評価すると、o3は手作業のドメイン固有の戦略や緩和された制約なしで金メダルを獲得します。私たちの調査結果は、o1-ioiなどの専門のパイプラインが確かな改善をもたらす一方で、拡大された汎用のo3モデルが手作業の推論ヒューリスティクスに依存せずにこれらの結果を上回ることを示しています。特筆すべきは、o3が2024年IOIで金メダルを獲得し、エリート人間の競技者と同等のCodeforcesレーティングを獲得していることです。これらの結果は、競技プログラミングなどの推論領域における最先端のAIに向けた堅牢な道筋として、ドメイン固有の技術に頼るのではなく、汎用の強化学習をスケーリングすることが有効であることを示しています。
English
We show that reinforcement learning applied to large language models (LLMs)
significantly boosts performance on complex coding and reasoning tasks.
Additionally, we compare two general-purpose reasoning models - OpenAI o1 and
an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses
hand-engineered inference strategies designed for competing in the 2024
International Olympiad in Informatics (IOI). We competed live at IOI 2024 with
o1-ioi and, using hand-crafted test-time strategies, placed in the 49th
percentile. Under relaxed competition constraints, o1-ioi achieved a gold
medal. However, when evaluating later models such as o3, we find that o3
achieves gold without hand-crafted domain-specific strategies or relaxed
constraints. Our findings show that although specialized pipelines such as
o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model
surpasses those results without relying on hand-crafted inference heuristics.
Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces
rating on par with elite human competitors. Overall, these results indicate
that scaling general-purpose reinforcement learning, rather than relying on
domain-specific techniques, offers a robust path toward state-of-the-art AI in
reasoning domains, such as competitive programming.Summary
AI-Generated Summary