Wettbewerbsorientierte Programmierung mit großen Modellen zur Begründung

papers.abstract

Wir zeigen, dass die Anwendung von Verstärkendem Lernen auf große Sprachmodelle (LLMs) die Leistung bei komplexen Kodierungs- und Schlussfolgerungsaufgaben signifikant steigert. Darüber hinaus vergleichen wir zwei allgemeine Schlussfolgerungsmodelle - OpenAI o1 und einen frühen Zwischenstand von o3 - mit einem domänenspezifischen System, o1-ioi, das handgefertigte Inferenzstrategien verwendet, die für die Teilnahme am Internationalen Informatik-Olympiade (IOI) 2024 entwickelt wurden. Wir haben live an der IOI 2024 mit o1-ioi teilgenommen und, unter Verwendung von handgefertigten Testzeitstrategien, den 49. Perzentil erreicht. Unter entspannten Wettbewerbsbedingungen erreichte o1-ioi eine Goldmedaille. Bei der Bewertung späterer Modelle wie o3 stellen wir jedoch fest, dass o3 Gold ohne handgefertigte domänenspezifische Strategien oder entspannte Einschränkungen erreicht. Unsere Ergebnisse zeigen, dass spezialisierte Pipelines wie o1-ioi solide Verbesserungen bringen, das hochskalierte, allgemeine o3-Modell jedoch diese Ergebnisse übertrifft, ohne auf handgefertigte Inferenzheuristiken angewiesen zu sein. Bemerkenswerterweise erreicht o3 eine Goldmedaille bei der IOI 2024 und erhält ein Codeforces-Rating auf Augenhöhe mit Elite-Mensch-Mitbewerbern. Insgesamt deuten diese Ergebnisse darauf hin, dass die Skalierung des allgemeinen Verstärkenden Lernens, anstatt auf domänenspezifische Techniken zu setzen, einen robusten Weg zu modernster KI in Schlussfolgerungsbereichen wie dem Wettkampfprogrammieren bietet.

English

We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.

Wettbewerbsorientierte Programmierung mit großen Modellen zur Begründung

Competitive Programming with Large Reasoning Models

papers.abstract

Support