AetherCode: Оценка способности крупных языковых моделей побеждать в престижных программистских соревнованиях

Аннотация

Соревновательное программирование стало важным эталоном для оценки способностей к рассуждению и написанию кода у крупных языковых моделей (LLM). Несмотря на впечатляющий прогресс в существующих тестах, мы утверждаем, что текущие оценки преувеличивают уровень мастерства моделей, скрывая значительный разрыв между LLM и элитными программистами-людьми. Этот разрыв возникает из-за двух ключевых ограничений: недостаточной сложности и широты охвата тестовых задач, а также из-за предвзятости оценки, вызванной низкокачественными тестовыми примерами. Чтобы устранить эти недостатки, мы представляем AetherCode — новый эталон, который включает задачи из престижных соревнований по программированию, таких как IOI и ICPC, предлагая более широкий охват и повышенную сложность. AetherCode также включает всеобъемлющие тестовые наборы, проверенные экспертами и созданные с использованием гибридного подхода, сочетающего автоматическую генерацию и ручную обработку, что обеспечивает строгую и надежную оценку. Сочетая сложный дизайн задач с надежной системой оценки, AetherCode предоставляет более точную меру способностей LLM и устанавливает новый стандарт для будущих исследований в области рассуждений на основе кода.

English

Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.

AetherCode: Оценка способности крупных языковых моделей побеждать в престижных программистских соревнованиях

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Аннотация

Support