Соревновательное программирование с использованием больших моделей рассуждений

Аннотация

Мы показываем, что обучение с подкреплением, примененное к большим языковым моделям (LLM), значительно повышает производительность на сложных задачах кодирования и рассуждений. Кроме того, мы сравниваем две общие модели рассуждений - OpenAI o1 и раннюю точку о3 - с системой, специфичной для области, o1-ioi, которая использует ручные стратегии вывода, разработанные для участия в Международной олимпиаде по информатике (IOI) 2024. Мы участвовали в прямом эфире на IOI 2024 с o1-ioi и, используя ручные стратегии на этапе тестирования, заняли 49-й процентиль. При более мягких ограничениях соревнования o1-ioi получил золотую медаль. Однако при оценке более поздних моделей, таких как o3, мы обнаружили, что o3 достигает золота без ручных специфичных для области стратегий или смягченных ограничений. Наши результаты показывают, что хотя специализированные конвейеры, такие как o1-ioi, приводят к существенным улучшениям, масштабируемая общепринятая модель o3 превосходит эти результаты, не полагаясь на ручные эвристики вывода. Следует отметить, что o3 достигает золотой медали на IOI 2024 и получает рейтинг Codeforces на уровне элитных человеческих соперников. В целом, эти результаты указывают на то, что масштабирование общепринятого обучения с подкреплением, вместо полаганиясь на специфические для области техники, предлагает надежный путь к передовому искусству в области искусственного интеллекта в областях рассуждений, таких как соревновательное программирование.

English

We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.

Соревновательное программирование с использованием больших моделей рассуждений

Competitive Programming with Large Reasoning Models

Аннотация

Support