ChatPaper.aiChatPaper

AetherCode: Valutazione della Capacità dei Modelli Linguistici di Vincere nelle Principali Competizioni di Programmazione

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

August 22, 2025
Autori: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
cs.AI

Abstract

La programmazione competitiva è emersa come un punto di riferimento cruciale per valutare le capacità di ragionamento e codifica dei Large Language Model (LLM). Nonostante i progressi impressionanti sui benchmark esistenti, sosteniamo che le valutazioni attuali sopravvalutino la competenza dei modelli, nascondendo un divario sostanziale tra gli LLM e i programmatori umani d'élite. Questo divario deriva da due limitazioni chiave: l'insufficiente difficoltà e portata dei problemi proposti nei benchmark, e il bias di valutazione dovuto a casi di test di bassa qualità. Per affrontare queste carenze, presentiamo AetherCode, un nuovo benchmark che attinge problemi da competizioni di programmazione di alto livello come l'IOI e l'ICPC, offrendo una copertura più ampia e una difficoltà maggiore. AetherCode incorpora inoltre suite di test complete e validate da esperti, costruite attraverso un approccio ibrido di generazione automatica e curatela umana, garantendo una valutazione rigorosa e affidabile. Combinando una progettazione di problemi impegnativa con una valutazione robusta, AetherCode fornisce una misura più fedele delle capacità degli LLM e stabilisce un nuovo standard per la ricerca futura nel ragionamento sul codice.
English
Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.
PDF144August 25, 2025