Competitief programmeren met grote redeneringsmodellen

Samenvatting

We tonen aan dat versterkend leren toegepast op grote taalmodellen (LLM's) de prestaties op complexe codeer- en redeneertaken aanzienlijk verbetert. Daarnaast vergelijken we twee algemene redeneringsmodellen - OpenAI o1 en een vroeg checkpoint van o3 - met een domeinspecifiek systeem, o1-ioi, dat handmatig ontworpen inferentiestrategieën gebruikt die zijn ontwikkeld om deel te nemen aan de Internationale Olympiade in Informatica (IOI) van 2024. We namen live deel aan IOI 2024 met o1-ioi en behaalden, met handmatig gemaakte testtijdstrategieën, een plaats in het 49e percentiel. Onder minder strikte competitiebeperkingen behaalde o1-ioi een gouden medaille. Echter, bij het evalueren van latere modellen zoals o3, vinden we dat o3 goud behaalt zonder handmatig gemaakte domeinspecifieke strategieën of minder strikte beperkingen. Onze bevindingen tonen aan dat hoewel gespecialiseerde pipelines zoals o1-ioi solide verbeteringen opleveren, het opgeschaalde, algemene o3-model deze resultaten overtreft zonder te vertrouwen op handmatig gemaakte inferentieheuristieken. Opmerkelijk is dat o3 een gouden medaille behaalt op de IOI van 2024 en een Codeforces-beoordeling behaalt die gelijk is aan die van elite menselijke concurrenten. Over het algemeen geven deze resultaten aan dat het opschalen van algemeen versterkend leren, in plaats van te vertrouwen op domeinspecifieke technieken, een robuuste weg biedt naar toonaangevende AI in redeneerdomeinen, zoals competitief programmeren.

English

We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.

Competitief programmeren met grote redeneringsmodellen

Competitive Programming with Large Reasoning Models

Samenvatting

Support