ChatPaper.aiChatPaper

AetherCode: Оценка способности крупных языковых моделей побеждать в престижных программистских соревнованиях

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

August 22, 2025
Авторы: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
cs.AI

Аннотация

Соревновательное программирование стало важным эталоном для оценки способностей к рассуждению и написанию кода у крупных языковых моделей (LLM). Несмотря на впечатляющий прогресс в существующих тестах, мы утверждаем, что текущие оценки преувеличивают уровень мастерства моделей, скрывая значительный разрыв между LLM и элитными программистами-людьми. Этот разрыв возникает из-за двух ключевых ограничений: недостаточной сложности и широты охвата тестовых задач, а также из-за предвзятости оценки, вызванной низкокачественными тестовыми примерами. Чтобы устранить эти недостатки, мы представляем AetherCode — новый эталон, который включает задачи из престижных соревнований по программированию, таких как IOI и ICPC, предлагая более широкий охват и повышенную сложность. AetherCode также включает всеобъемлющие тестовые наборы, проверенные экспертами и созданные с использованием гибридного подхода, сочетающего автоматическую генерацию и ручную обработку, что обеспечивает строгую и надежную оценку. Сочетая сложный дизайн задач с надежной системой оценки, AetherCode предоставляет более точную меру способностей LLM и устанавливает новый стандарт для будущих исследований в области рассуждений на основе кода.
English
Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.
PDF122August 25, 2025