AetherCode: Het evalueren van het vermogen van LLM's om te winnen in toonaangevende programmeerwedstrijden
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions
August 22, 2025
Auteurs: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
cs.AI
Samenvatting
Competitief programmeren is naar voren gekomen als een cruciale maatstaf voor het evalueren van de redeneer- en codeervaardigheden van Large Language Models (LLMs). Ondanks indrukwekkende vooruitgang op bestaande benchmarks, stellen wij dat huidige evaluaties de vaardigheid van modellen overschatten, waardoor een aanzienlijke kloof tussen LLMs en topmenselijke programmeurs verborgen blijft. Deze kloof ontstaat door twee belangrijke beperkingen: onvoldoende moeilijkheid en omvang van benchmarkproblemen, en evaluatiebias door testgevallen van lage kwaliteit. Om deze tekortkomingen aan te pakken, presenteren we AetherCode, een nieuwe benchmark die problemen haalt uit toonaangevende programmeerwedstrijden zoals IOI en ICPC, wat een bredere dekking en hogere moeilijkheidsgraad biedt. AetherCode integreert verder uitgebreide, door experts gevalideerde testsuites die zijn opgebouwd via een combinatie van automatische generatie en menselijke curatie, wat zorgt voor een rigoureuze en betrouwbare beoordeling. Door uitdagend probleemontwerp te combineren met robuuste evaluatie, biedt AetherCode een nauwkeuriger maatstaf voor de capaciteiten van LLMs en stelt het een nieuwe standaard voor toekomstig onderzoek in coderedenering.
English
Competitive programming has emerged as a critical benchmark for evaluating
the reasoning and coding capabilities of Large Language Models (LLMs). Despite
impressive progress on existing benchmarks, we argue that current evaluations
overstate model proficiency, masking a substantial gap between LLMs and elite
human programmers. This gap arises from two key limitations: insufficient
difficulty and scope of benchmark problems, and evaluation bias from
low-quality test cases. To address these shortcomings, we present AetherCode, a
new benchmark that draws problems from premier programming competitions such as
IOI and ICPC, offering broader coverage and higher difficulty. AetherCode
further incorporates comprehensive, expert-validated test suites built through
a hybrid of automated generation and human curation, ensuring rigorous and
reliable assessment. By combining challenging problem design with robust
evaluation, AetherCode provides a more faithful measure of LLM capabilities and
sets a new standard for future research in code reasoning.