AetherCode: Evaluando la Capacidad de los Modelos de Lenguaje de Gran Escala para Ganar en Competencias de Programación de Élite
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions
August 22, 2025
Autores: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
cs.AI
Resumen
La programación competitiva ha surgido como un criterio fundamental para evaluar las capacidades de razonamiento y codificación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A pesar de los avances impresionantes en los puntos de referencia existentes, argumentamos que las evaluaciones actuales sobrestiman la competencia de los modelos, ocultando una brecha sustancial entre los LLMs y los programadores humanos de élite. Esta brecha surge de dos limitaciones clave: la insuficiente dificultad y alcance de los problemas de referencia, y el sesgo en la evaluación debido a casos de prueba de baja calidad. Para abordar estas deficiencias, presentamos AetherCode, un nuevo punto de referencia que extrae problemas de competiciones de programación de primer nivel como la IOI y la ICPC, ofreciendo una cobertura más amplia y una mayor dificultad. AetherCode incorpora además conjuntos de pruebas exhaustivos y validados por expertos, construidos mediante una combinación de generación automatizada y curaduría humana, garantizando una evaluación rigurosa y confiable. Al combinar un diseño de problemas desafiantes con una evaluación robusta, AetherCode proporciona una medida más fiel de las capacidades de los LLMs y establece un nuevo estándar para futuras investigaciones en razonamiento de código.
English
Competitive programming has emerged as a critical benchmark for evaluating
the reasoning and coding capabilities of Large Language Models (LLMs). Despite
impressive progress on existing benchmarks, we argue that current evaluations
overstate model proficiency, masking a substantial gap between LLMs and elite
human programmers. This gap arises from two key limitations: insufficient
difficulty and scope of benchmark problems, and evaluation bias from
low-quality test cases. To address these shortcomings, we present AetherCode, a
new benchmark that draws problems from premier programming competitions such as
IOI and ICPC, offering broader coverage and higher difficulty. AetherCode
further incorporates comprehensive, expert-validated test suites built through
a hybrid of automated generation and human curation, ensuring rigorous and
reliable assessment. By combining challenging problem design with robust
evaluation, AetherCode provides a more faithful measure of LLM capabilities and
sets a new standard for future research in code reasoning.