Programmazione competitiva con grandi modelli di ragionamento

Abstract

Dimostriamo che l'apprendimento per rinforzo applicato ai grandi modelli linguistici (LLM) migliora significativamente le prestazioni su compiti complessi di codifica e ragionamento. Inoltre, confrontiamo due modelli di ragionamento generici - OpenAI o1 e un checkpoint iniziale di o3 - con un sistema specifico del dominio, o1-ioi, che utilizza strategie di inferenza progettate manualmente per competere nella Olimpiade Internazionale di Informatica (IOI) del 2024. Abbiamo gareggiato dal vivo alla IOI 2024 con o1-ioi e, utilizzando strategie di test create manualmente, siamo arrivati al 49° percentile. In condizioni di competizione meno rigide, o1-ioi ha ottenuto una medaglia d'oro. Tuttavia, valutando modelli successivi come o3, scopriamo che o3 raggiunge l'oro senza strategie specifiche del dominio create manualmente o vincoli ridotti. Le nostre scoperte dimostrano che, sebbene i flussi di lavoro specializzati come o1-ioi apportino miglioramenti significativi, il modello generico scalato o3 supera tali risultati senza fare affidamento su euristiche di inferenza create manualmente. In particolare, o3 raggiunge una medaglia d'oro alla IOI del 2024 e ottiene un punteggio Codeforces pari a quello dei migliori concorrenti umani. Nel complesso, questi risultati indicano che scalare l'apprendimento per rinforzo generico, anziché fare affidamento su tecniche specifiche del dominio, offre un percorso robusto verso l'intelligenza artificiale all'avanguardia nei domini del ragionamento, come la programmazione competitiva.

English

We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.

Programmazione competitiva con grandi modelli di ragionamento

Competitive Programming with Large Reasoning Models

Abstract

Support