AetherCode: Bewertung der Fähigkeit von LLMs, in erstklassigen Programmierwettbewerben zu gewinnen

papers.abstract

Competitive Programming hat sich als entscheidender Maßstab für die Bewertung der Denk- und Programmierfähigkeiten von Large Language Models (LLMs) etabliert. Trotz beeindruckender Fortschritte bei bestehenden Benchmarks argumentieren wir, dass aktuelle Bewertungen die Modellkompetenz überbewerten und eine erhebliche Lücke zwischen LLMs und Spitzenprogrammierern verdecken. Diese Lücke ergibt sich aus zwei zentralen Einschränkungen: unzureichender Schwierigkeitsgrad und Umfang der Benchmark-Probleme sowie einer Bewertungsverzerrung durch qualitativ minderwertige Testfälle. Um diese Mängel zu beheben, stellen wir AetherCode vor, einen neuen Benchmark, der Probleme aus renommierten Programmierwettbewerben wie der IOI und dem ICPC heranzieht und damit eine breitere Abdeckung und höhere Schwierigkeit bietet. AetherCode integriert zudem umfassende, von Experten validierte Testsuites, die durch eine Kombination aus automatischer Generierung und menschlicher Kuratierung erstellt wurden, um eine strenge und zuverlässige Bewertung zu gewährleisten. Durch die Verbindung anspruchsvoller Problemgestaltung mit robuster Evaluation bietet AetherCode eine treffendere Messung der Fähigkeiten von LLMs und setzt einen neuen Standard für zukünftige Forschung im Bereich des Code-Verständnisses.

English

Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.

AetherCode: Bewertung der Fähigkeit von LLMs, in erstklassigen Programmierwettbewerben zu gewinnen

AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

papers.abstract

Support