ChatPaper.aiChatPaper

BigCodeArena : Révéler des préférences humaines plus fiables dans la génération de code via l'exécution

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

October 9, 2025
papers.authors: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra
cs.AI

papers.abstract

Les plateformes d'évaluation de modèles basées sur la foule, telles que Chatbot Arena, permettent une évaluation en temps réel à partir de perspectives humaines pour juger de la qualité des réponses des modèles. Dans le domaine de la programmation, l'examen manuel de la qualité du contenu généré par les modèles de langage (LLM) est extrêmement complexe, car il nécessite de comprendre de longs segments de code brut et de simuler délibérément l'exécution du code. Pour répondre à ce besoin, nous présentons BigCodeArena, une plateforme ouverte d'évaluation humaine pour la génération de code, soutenue par un environnement d'exécution complet et en temps réel. Construite sur Chatbot Arena, BigCodeArena permet l'exécution du code généré par les LLM et offre aux humains la possibilité d'interagir avec le processus d'exécution et ses résultats. Nous avons collecté plus de 14 000 sessions de conversation centrées sur le code provenant de 10 LLM largement utilisés, couvrant 10 langages et 8 types d'environnements d'exécution. Parmi ces conversations, nous avons identifié plus de 4 700 échantillons multi-tours avec des préférences humaines par paires. Une analyse approfondie révèle des préférences peu explorées des LLM dans des domaines fins caractérisés par des tâches, des langages et des frameworks. Pour examiner systématiquement les capacités de compréhension et de génération de code des LLM de pointe, nous avons élaboré deux benchmarks basés sur les données collectées, à savoir BigCodeReward et AutoCodeArena. Pour BigCodeReward, nous avons post-traité les 4 700 conversations et évalué la cohérence entre les modèles de récompense et les préférences humaines. L'évaluation montre que la plupart des LLM offrent des performances supérieures dans le jugement des préférences de codage lorsque les résultats d'exécution sont disponibles. Inspirés par ces résultats, nous proposons AutoCodeArena, un benchmark automatique de classement Elo conçu pour évaluer la qualité du codage des LLM sans intervention humaine. Nous constatons que les LLM propriétaires comme GPT-5, Claude-Sonnet-4 et Claude-Opus-4 restent en tête en termes de performance de génération de code parmi les modèles émergents récents.
English
Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execution environment. Built on top of Chatbot Arena, BigCodeArena enables the execution of LLM-generated code and allows humans to interact with the execution process and outcomes. We collected over 14,000 raw code-centric conversation sessions across 10 widely used LLMs, spanning 10 languages and 8 types of execution environments. Among these conversations, we identified more than 4,700 multi-turn samples with pairwise human preferences. Further analysis uncovers underexplored preferences of LLMs in fine-grained domains characterized by tasks, languages, and frameworks. To systematically examine code understanding and generation capabilities of frontier LLMs, we curated two benchmarks based on the collected data, namely BigCodeReward and AutoCodeArena. For BigCodeReward, we post-processed the 4,700 conversations and evaluated the consistency between reward models and human preferences. The evaluation shows that most LLMs have superior performance in judging coding preferences when the execution results are available. Inspired by these findings, we propose AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding quality of LLMs without human involvement. We find that proprietary LLMs like GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation performance among recent emerging models.
PDF293October 13, 2025