AetherCode: Valutazione della Capacità dei Modelli Linguistici di Vincere nelle Principali Competizioni di Programmazione

Abstract

La programmazione competitiva è emersa come un punto di riferimento cruciale per valutare le capacità di ragionamento e codifica dei Large Language Model (LLM). Nonostante i progressi impressionanti sui benchmark esistenti, sosteniamo che le valutazioni attuali sopravvalutino la competenza dei modelli, nascondendo un divario sostanziale tra gli LLM e i programmatori umani d'élite. Questo divario deriva da due limitazioni chiave: l'insufficiente difficoltà e portata dei problemi proposti nei benchmark, e il bias di valutazione dovuto a casi di test di bassa qualità. Per affrontare queste carenze, presentiamo AetherCode, un nuovo benchmark che attinge problemi da competizioni di programmazione di alto livello come l'IOI e l'ICPC, offrendo una copertura più ampia e una difficoltà maggiore. AetherCode incorpora inoltre suite di test complete e validate da esperti, costruite attraverso un approccio ibrido di generazione automatica e curatela umana, garantendo una valutazione rigorosa e affidabile. Combinando una progettazione di problemi impegnativa con una valutazione robusta, AetherCode fornisce una misura più fedele delle capacità degli LLM e stabilisce un nuovo standard per la ricerca futura nel ragionamento sul codice.

English

Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.

AetherCode: Valutazione della Capacità dei Modelli Linguistici di Vincere nelle Principali Competizioni di Programmazione

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Abstract

Support