ChatPaper.aiChatPaper

大規模推論モデルを用いた競技プログラミング

Competitive Programming with Large Reasoning Models

February 3, 2025
著者: OpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
cs.AI

要旨

大規模言語モデル(LLMs)に適用された強化学習が、複雑なコーディングおよび推論タスクの性能を大幅に向上させることを示します。さらに、2つの汎用推論モデル、OpenAI o1 と o3 の初期チェックポイントと、2024年国際情報オリンピアード(IOI)で競技するために設計された手作業の推論戦略を使用するドメイン固有のシステムである o1-ioi を比較します。私たちは、o1-ioi でIOI 2024に出場し、手作業で作成したテスト時戦略を使用して49パーセンタイルに入賞しました。緩和された競技制約の下で、o1-ioi は金メダルを獲得しました。ただし、o3などの後のモデルを評価すると、o3は手作業のドメイン固有の戦略や緩和された制約なしで金メダルを獲得します。私たちの調査結果は、o1-ioiなどの専門のパイプラインが確かな改善をもたらす一方で、拡大された汎用のo3モデルが手作業の推論ヒューリスティクスに依存せずにこれらの結果を上回ることを示しています。特筆すべきは、o3が2024年IOIで金メダルを獲得し、エリート人間の競技者と同等のCodeforcesレーティングを獲得していることです。これらの結果は、競技プログラミングなどの推論領域における最先端のAIに向けた堅牢な道筋として、ドメイン固有の技術に頼るのではなく、汎用の強化学習をスケーリングすることが有効であることを示しています。
English
We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.

Summary

AI-Generated Summary

PDF702February 12, 2025