ChatPaper.aiChatPaper

CodeElo : Évaluation comparative de la génération de code au niveau de la compétition des LLMs avec des notations Elo comparables à celles des humains

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

January 2, 2025
Auteurs: Shanghaoran Quan, Jiaxi Yang, Bowen Yu, Bo Zheng, Dayiheng Liu, An Yang, Xuancheng Ren, Bofei Gao, Yibo Miao, Yunlong Feng, Zekun Wang, Jian Yang, Zeyu Cui, Yang Fan, Yichang Zhang, Binyuan Hui, Junyang Lin
cs.AI

Résumé

Avec l'amélioration croissante des capacités de raisonnement du code des modèles de langage de grande taille (LLMs) existants et les avancées dans les modèles de raisonnement tels que OpenAI o1 et o3, il est de plus en plus nécessaire de développer des benchmarks plus exigeants et complets qui testent efficacement leurs capacités de codage sophistiquées de niveau de compétition. Les benchmarks existants, tels que LiveCodeBench et USACO, présentent des lacunes en raison de l'indisponibilité de cas de test privés, du manque de prise en charge des juges spéciaux et des environnements d'exécution mal alignés. Pour combler ce fossé, nous introduisons CodeElo, un benchmark de génération de code de niveau de compétition normalisé qui aborde efficacement tous ces défis pour la première fois. Le benchmark CodeElo est principalement basé sur la plateforme officielle CodeForces et tente de s'aligner autant que possible avec la plateforme. Nous compilons les problèmes des concours des six derniers mois sur CodeForces avec des informations détaillées telles que les divisions des concours, les évaluations de difficulté des problèmes et les balises d'algorithmes de problèmes. Nous introduisons une méthode de jugement unique dans laquelle les problèmes sont soumis directement à la plateforme et développons un système fiable de calcul des notes Elo qui s'aligne avec la plateforme et est comparable aux participants humains mais présente une variance plus faible. En testant sur notre CodeElo, nous fournissons pour la première fois les notes Elo de 30 LLMs open-source populaires existants et de 3 LLMs propriétaires. Les résultats montrent que o1-mini et QwQ-32B-Preview se distinguent significativement, atteignant des notes Elo de 1578 et 1261 respectivement, tandis que d'autres modèles ont du mal même avec les problèmes les plus faciles, se classant dans les 20 % les plus bas parmi tous les participants humains. Des expériences d'analyse détaillées sont également menées pour fournir des informations sur les performances à travers les algorithmes et les comparaisons entre l'utilisation de C++ et de Python, ce qui peut suggérer des orientations pour des études futures.
English
With the increasing code reasoning capabilities of existing large language models (LLMs) and breakthroughs in reasoning models like OpenAI o1 and o3, there is a growing need to develop more challenging and comprehensive benchmarks that effectively test their sophisticated competition-level coding abilities. Existing benchmarks, like LiveCodeBench and USACO, fall short due to the unavailability of private test cases, lack of support for special judges, and misaligned execution environments. To bridge this gap, we introduce CodeElo, a standardized competition-level code generation benchmark that effectively addresses all these challenges for the first time. CodeElo benchmark is mainly based on the official CodeForces platform and tries to align with the platform as much as possible. We compile the recent six months of contest problems on CodeForces with detailed information such as contest divisions, problem difficulty ratings, and problem algorithm tags. We introduce a unique judging method in which problems are submitted directly to the platform and develop a reliable Elo rating calculation system that aligns with the platform and is comparable with human participants but has lower variance. By testing on our CodeElo, we provide the Elo ratings of 30 existing popular open-source and 3 proprietary LLMs for the first time. The results show that o1-mini and QwQ-32B-Preview stand out significantly, achieving Elo ratings of 1578 and 1261, respectively, while other models struggle even with the easiest problems, placing in the lowest 20 percent among all human participants. Detailed analysis experiments are also conducted to provide insights into performance across algorithms and comparisons between using C++ and Python, which can suggest directions for future studies.

Summary

AI-Generated Summary

PDF536January 3, 2025