Programação Competitiva com Modelos de Raciocínio Amplos
Competitive Programming with Large Reasoning Models
February 3, 2025
Autores: OpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
cs.AI
Resumo
Demonstramos que a aprendizagem por reforço aplicada a grandes modelos de linguagem (LLMs) melhora significativamente o desempenho em tarefas complexas de codificação e raciocínio. Além disso, comparamos dois modelos de raciocínio de propósito geral - OpenAI o1 e um checkpoint inicial de o3 - com um sistema específico de domínio, o1-ioi, que utiliza estratégias de inferência projetadas manualmente para competir na Olimpíada Internacional de Informática (IOI) de 2024. Competimos ao vivo na IOI 2024 com o o1-ioi e, utilizando estratégias de teste elaboradas manualmente, ficamos no 49º percentil. Sob condições de competição mais flexíveis, o o1-ioi conquistou uma medalha de ouro. No entanto, ao avaliar modelos posteriores como o o3, observamos que o o3 alcança a medalha de ouro sem estratégias específicas de domínio elaboradas manualmente ou restrições flexíveis. Nossas descobertas mostram que, embora pipelines especializados como o o1-ioi proporcionem melhorias sólidas, o modelo de propósito geral em escala o3 supera esses resultados sem depender de heurísticas de inferência elaboradas manualmente. Notavelmente, o o3 conquista uma medalha de ouro na IOI de 2024 e obtém uma classificação no Codeforces equivalente à de competidores humanos de elite. No geral, esses resultados indicam que a escalabilidade da aprendizagem por reforço de propósito geral, em vez de depender de técnicas específicas de domínio, oferece um caminho robusto em direção à IA de ponta em domínios de raciocínio, como programação competitiva.
English
We show that reinforcement learning applied to large language models (LLMs)
significantly boosts performance on complex coding and reasoning tasks.
Additionally, we compare two general-purpose reasoning models - OpenAI o1 and
an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses
hand-engineered inference strategies designed for competing in the 2024
International Olympiad in Informatics (IOI). We competed live at IOI 2024 with
o1-ioi and, using hand-crafted test-time strategies, placed in the 49th
percentile. Under relaxed competition constraints, o1-ioi achieved a gold
medal. However, when evaluating later models such as o3, we find that o3
achieves gold without hand-crafted domain-specific strategies or relaxed
constraints. Our findings show that although specialized pipelines such as
o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model
surpasses those results without relying on hand-crafted inference heuristics.
Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces
rating on par with elite human competitors. Overall, these results indicate
that scaling general-purpose reinforcement learning, rather than relying on
domain-specific techniques, offers a robust path toward state-of-the-art AI in
reasoning domains, such as competitive programming.Summary
AI-Generated Summary