AetherCode: Avaliando a Capacidade de LLMs em Vencer Competições de Programação de Elite

Resumo

A programação competitiva emergiu como um benchmark crítico para avaliar as capacidades de raciocínio e codificação dos Modelos de Linguagem de Grande Escala (LLMs). Apesar dos progressos impressionantes nos benchmarks existentes, argumentamos que as avaliações atuais superestimam a proficiência dos modelos, mascarando uma lacuna substancial entre os LLMs e os programadores humanos de elite. Essa lacuna surge de duas limitações principais: a dificuldade e o escopo insuficientes dos problemas dos benchmarks, e o viés de avaliação decorrente de casos de teste de baixa qualidade. Para abordar essas deficiências, apresentamos o AetherCode, um novo benchmark que extrai problemas de competições de programação de elite, como a IOI e a ICPC, oferecendo uma cobertura mais ampla e maior dificuldade. O AetherCode ainda incorpora conjuntos de testes abrangentes e validados por especialistas, construídos por meio de uma combinação de geração automatizada e curadoria humana, garantindo uma avaliação rigorosa e confiável. Ao combinar o design desafiador de problemas com uma avaliação robusta, o AetherCode fornece uma medida mais fiel das capacidades dos LLMs e estabelece um novo padrão para pesquisas futuras em raciocínio de código.

English

Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.

AetherCode: Avaliando a Capacidade de LLMs em Vencer Competições de Programação de Elite

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Resumo

Support