Programación Competitiva con Modelos de Razonamiento Amplios

Resumen

Demostramos que el aprendizaje por refuerzo aplicado a grandes modelos de lenguaje (LLMs) mejora significativamente el rendimiento en tareas complejas de codificación y razonamiento. Además, comparamos dos modelos de razonamiento de propósito general - OpenAI o1 y un punto de control inicial de o3 - con un sistema específico de dominio, o1-ioi, que utiliza estrategias de inferencia diseñadas manualmente para competir en la Olimpiada Internacional de Informática (IOI) de 2024. Competimos en vivo en la IOI 2024 con o1-ioi y, utilizando estrategias de prueba diseñadas manualmente, obtuvimos el percentil 49. Bajo restricciones de competencia más flexibles, o1-ioi logró una medalla de oro. Sin embargo, al evaluar modelos posteriores como o3, encontramos que o3 obtiene una medalla de oro sin estrategias específicas de dominio diseñadas manualmente o restricciones flexibles. Nuestros hallazgos muestran que aunque los flujos especializados como o1-ioi ofrecen mejoras sólidas, el modelo de propósito general escalado o3 supera esos resultados sin depender de heurísticas de inferencia diseñadas manualmente. Es destacable que o3 obtiene una medalla de oro en la IOI de 2024 y alcanza una calificación en Codeforces al nivel de competidores humanos de élite. En general, estos resultados indican que escalar el aprendizaje por refuerzo de propósito general, en lugar de depender de técnicas específicas de dominio, ofrece un camino sólido hacia la inteligencia artificial de vanguardia en dominios de razonamiento, como la programación competitiva.

English

We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.

Programación Competitiva con Modelos de Razonamiento Amplios

Competitive Programming with Large Reasoning Models

Resumen

Support