ChatPaper.aiChatPaper

BigCodeArena: Het Onthullen van Betrouwbaardere Menselijke Voorkeuren in Codegeneratie via Uitvoering

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

October 9, 2025
Auteurs: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra
cs.AI

Samenvatting

Crowdsourced model evaluatieplatforms, zoals Chatbot Arena, maken real-time evaluatie vanuit menselijk perspectief mogelijk om de kwaliteit van modelreacties te beoordelen. In het domein van coderen is het handmatig onderzoeken van de kwaliteit van door LLM gegenereerde inhoud buitengewoon uitdagend, omdat het begrip vereist van lange stukken ruwe code en het bewust simuleren van code-uitvoering. Daarom introduceren we BigCodeArena, een open platform voor menselijke evaluatie van codegeneratie, ondersteund door een uitgebreide en directe uitvoeringsomgeving. Gebouwd bovenop Chatbot Arena, maakt BigCodeArena de uitvoering van door LLM gegenereerde code mogelijk en stelt het mensen in staat om te interageren met het uitvoeringsproces en de resultaten. We hebben meer dan 14.000 ruwe code-gerichte conversatiesessies verzameld over 10 veelgebruikte LLM's, verspreid over 10 talen en 8 soorten uitvoeringsomgevingen. Onder deze conversaties hebben we meer dan 4.700 multi-turn voorbeelden geïdentificeerd met paarsgewijze menselijke voorkeuren. Verdere analyse onthult onderbelichte voorkeuren van LLM's in fijnmazige domeinen gekenmerkt door taken, talen en frameworks. Om de codebegrip- en generatiecapaciteiten van toonaangevende LLM's systematisch te onderzoeken, hebben we twee benchmarks samengesteld op basis van de verzamelde gegevens, namelijk BigCodeReward en AutoCodeArena. Voor BigCodeReward hebben we de 4.700 conversaties naverwerkt en de consistentie tussen beloningsmodellen en menselijke voorkeuren geëvalueerd. De evaluatie toont aan dat de meeste LLM's superieure prestaties leveren in het beoordelen van codevoorkeuren wanneer de uitvoeringsresultaten beschikbaar zijn. Geïnspireerd door deze bevindingen stellen we AutoCodeArena voor, een automatische Elo-ratingbenchmark ontworpen om de codekwaliteit van LLM's te beoordelen zonder menselijke betrokkenheid. We constateren dat propriëtaire LLM's zoals GPT-5, Claude-Sonnet-4 en Claude-Opus-4 nog steeds leidend zijn in codegeneratieprestaties onder recent opkomende modellen.
English
Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execution environment. Built on top of Chatbot Arena, BigCodeArena enables the execution of LLM-generated code and allows humans to interact with the execution process and outcomes. We collected over 14,000 raw code-centric conversation sessions across 10 widely used LLMs, spanning 10 languages and 8 types of execution environments. Among these conversations, we identified more than 4,700 multi-turn samples with pairwise human preferences. Further analysis uncovers underexplored preferences of LLMs in fine-grained domains characterized by tasks, languages, and frameworks. To systematically examine code understanding and generation capabilities of frontier LLMs, we curated two benchmarks based on the collected data, namely BigCodeReward and AutoCodeArena. For BigCodeReward, we post-processed the 4,700 conversations and evaluated the consistency between reward models and human preferences. The evaluation shows that most LLMs have superior performance in judging coding preferences when the execution results are available. Inspired by these findings, we propose AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding quality of LLMs without human involvement. We find that proprietary LLMs like GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation performance among recent emerging models.
PDF293October 13, 2025