ChatPaper.aiChatPaper

AetherCode : Évaluation de la capacité des LLM à exceller dans les compétitions de programmation de premier plan

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

August 22, 2025
papers.authors: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
cs.AI

papers.abstract

La programmation compétitive est devenue un critère essentiel pour évaluer les capacités de raisonnement et de codage des modèles de langage de grande taille (LLM). Malgré des progrès impressionnants sur les benchmarks existants, nous soutenons que les évaluations actuelles surestiment la maîtrise des modèles, masquant un écart important entre les LLM et les programmeurs humains d'élite. Cet écart découle de deux limitations majeures : une difficulté et une portée insuffisantes des problèmes de benchmark, ainsi qu'un biais d'évaluation dû à des cas de test de faible qualité. Pour remédier à ces lacunes, nous présentons AetherCode, un nouveau benchmark qui puise ses problèmes dans des compétitions de programmation prestigieuses telles que l'IOI et l'ICPC, offrant une couverture plus large et une difficulté accrue. AetherCode intègre en outre des suites de tests exhaustives et validées par des experts, construites grâce à une combinaison de génération automatisée et de curation humaine, garantissant une évaluation rigoureuse et fiable. En associant une conception de problèmes exigeante à une évaluation robuste, AetherCode fournit une mesure plus fidèle des capacités des LLM et établit une nouvelle norme pour les recherches futures sur le raisonnement en code.
English
Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.
PDF122August 25, 2025