CodeElo : Évaluation comparative de la génération de code au niveau de la compétition des LLMs avec des notations Elo comparables à celles des humains
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings
January 2, 2025
Auteurs: Shanghaoran Quan, Jiaxi Yang, Bowen Yu, Bo Zheng, Dayiheng Liu, An Yang, Xuancheng Ren, Bofei Gao, Yibo Miao, Yunlong Feng, Zekun Wang, Jian Yang, Zeyu Cui, Yang Fan, Yichang Zhang, Binyuan Hui, Junyang Lin
cs.AI
Résumé
Avec l'amélioration croissante des capacités de raisonnement du code des modèles de langage de grande taille (LLMs) existants et les avancées dans les modèles de raisonnement tels que OpenAI o1 et o3, il est de plus en plus nécessaire de développer des benchmarks plus exigeants et complets qui testent efficacement leurs capacités de codage sophistiquées de niveau de compétition. Les benchmarks existants, tels que LiveCodeBench et USACO, présentent des lacunes en raison de l'indisponibilité de cas de test privés, du manque de prise en charge des juges spéciaux et des environnements d'exécution mal alignés. Pour combler ce fossé, nous introduisons CodeElo, un benchmark de génération de code de niveau de compétition normalisé qui aborde efficacement tous ces défis pour la première fois. Le benchmark CodeElo est principalement basé sur la plateforme officielle CodeForces et tente de s'aligner autant que possible avec la plateforme. Nous compilons les problèmes des concours des six derniers mois sur CodeForces avec des informations détaillées telles que les divisions des concours, les évaluations de difficulté des problèmes et les balises d'algorithmes de problèmes. Nous introduisons une méthode de jugement unique dans laquelle les problèmes sont soumis directement à la plateforme et développons un système fiable de calcul des notes Elo qui s'aligne avec la plateforme et est comparable aux participants humains mais présente une variance plus faible. En testant sur notre CodeElo, nous fournissons pour la première fois les notes Elo de 30 LLMs open-source populaires existants et de 3 LLMs propriétaires. Les résultats montrent que o1-mini et QwQ-32B-Preview se distinguent significativement, atteignant des notes Elo de 1578 et 1261 respectivement, tandis que d'autres modèles ont du mal même avec les problèmes les plus faciles, se classant dans les 20 % les plus bas parmi tous les participants humains. Des expériences d'analyse détaillées sont également menées pour fournir des informations sur les performances à travers les algorithmes et les comparaisons entre l'utilisation de C++ et de Python, ce qui peut suggérer des orientations pour des études futures.
English
With the increasing code reasoning capabilities of existing large language
models (LLMs) and breakthroughs in reasoning models like OpenAI o1 and o3,
there is a growing need to develop more challenging and comprehensive
benchmarks that effectively test their sophisticated competition-level coding
abilities. Existing benchmarks, like LiveCodeBench and USACO, fall short due to
the unavailability of private test cases, lack of support for special judges,
and misaligned execution environments. To bridge this gap, we introduce
CodeElo, a standardized competition-level code generation benchmark that
effectively addresses all these challenges for the first time. CodeElo
benchmark is mainly based on the official CodeForces platform and tries to
align with the platform as much as possible. We compile the recent six months
of contest problems on CodeForces with detailed information such as contest
divisions, problem difficulty ratings, and problem algorithm tags. We introduce
a unique judging method in which problems are submitted directly to the
platform and develop a reliable Elo rating calculation system that aligns with
the platform and is comparable with human participants but has lower variance.
By testing on our CodeElo, we provide the Elo ratings of 30 existing popular
open-source and 3 proprietary LLMs for the first time. The results show that
o1-mini and QwQ-32B-Preview stand out significantly, achieving Elo ratings of
1578 and 1261, respectively, while other models struggle even with the easiest
problems, placing in the lowest 20 percent among all human participants.
Detailed analysis experiments are also conducted to provide insights into
performance across algorithms and comparisons between using C++ and Python,
which can suggest directions for future studies.Summary
AI-Generated Summary