ChatPaper.aiChatPaper

AetherCode: Avaliando a Capacidade de LLMs em Vencer Competições de Programação de Elite

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

August 22, 2025
Autores: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
cs.AI

Resumo

A programação competitiva emergiu como um benchmark crítico para avaliar as capacidades de raciocínio e codificação dos Modelos de Linguagem de Grande Escala (LLMs). Apesar dos progressos impressionantes nos benchmarks existentes, argumentamos que as avaliações atuais superestimam a proficiência dos modelos, mascarando uma lacuna substancial entre os LLMs e os programadores humanos de elite. Essa lacuna surge de duas limitações principais: a dificuldade e o escopo insuficientes dos problemas dos benchmarks, e o viés de avaliação decorrente de casos de teste de baixa qualidade. Para abordar essas deficiências, apresentamos o AetherCode, um novo benchmark que extrai problemas de competições de programação de elite, como a IOI e a ICPC, oferecendo uma cobertura mais ampla e maior dificuldade. O AetherCode ainda incorpora conjuntos de testes abrangentes e validados por especialistas, construídos por meio de uma combinação de geração automatizada e curadoria humana, garantindo uma avaliação rigorosa e confiável. Ao combinar o design desafiador de problemas com uma avaliação robusta, o AetherCode fornece uma medida mais fiel das capacidades dos LLMs e estabelece um novo padrão para pesquisas futuras em raciocínio de código.
English
Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.
PDF144August 25, 2025