BigCodeArena: Het Onthullen van Betrouwbaardere Menselijke Voorkeuren in Codegeneratie via Uitvoering
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
October 9, 2025
Auteurs: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra
cs.AI
Samenvatting
Crowdsourced model evaluatieplatforms, zoals Chatbot Arena, maken real-time evaluatie vanuit menselijk perspectief mogelijk om de kwaliteit van modelreacties te beoordelen. In het domein van coderen is het handmatig onderzoeken van de kwaliteit van door LLM gegenereerde inhoud buitengewoon uitdagend, omdat het begrip vereist van lange stukken ruwe code en het bewust simuleren van code-uitvoering. Daarom introduceren we BigCodeArena, een open platform voor menselijke evaluatie van codegeneratie, ondersteund door een uitgebreide en directe uitvoeringsomgeving. Gebouwd bovenop Chatbot Arena, maakt BigCodeArena de uitvoering van door LLM gegenereerde code mogelijk en stelt het mensen in staat om te interageren met het uitvoeringsproces en de resultaten. We hebben meer dan 14.000 ruwe code-gerichte conversatiesessies verzameld over 10 veelgebruikte LLM's, verspreid over 10 talen en 8 soorten uitvoeringsomgevingen. Onder deze conversaties hebben we meer dan 4.700 multi-turn voorbeelden geïdentificeerd met paarsgewijze menselijke voorkeuren. Verdere analyse onthult onderbelichte voorkeuren van LLM's in fijnmazige domeinen gekenmerkt door taken, talen en frameworks. Om de codebegrip- en generatiecapaciteiten van toonaangevende LLM's systematisch te onderzoeken, hebben we twee benchmarks samengesteld op basis van de verzamelde gegevens, namelijk BigCodeReward en AutoCodeArena. Voor BigCodeReward hebben we de 4.700 conversaties naverwerkt en de consistentie tussen beloningsmodellen en menselijke voorkeuren geëvalueerd. De evaluatie toont aan dat de meeste LLM's superieure prestaties leveren in het beoordelen van codevoorkeuren wanneer de uitvoeringsresultaten beschikbaar zijn. Geïnspireerd door deze bevindingen stellen we AutoCodeArena voor, een automatische Elo-ratingbenchmark ontworpen om de codekwaliteit van LLM's te beoordelen zonder menselijke betrokkenheid. We constateren dat propriëtaire LLM's zoals GPT-5, Claude-Sonnet-4 en Claude-Opus-4 nog steeds leidend zijn in codegeneratieprestaties onder recent opkomende modellen.
English
Crowdsourced model evaluation platforms, such as Chatbot Arena, enable
real-time evaluation from human perspectives to assess the quality of model
responses. In the coding domain, manually examining the quality of
LLM-generated content is extremely challenging, as it requires understanding
long chunks of raw code and deliberately simulating code execution. To this
end, we introduce BigCodeArena, an open human evaluation platform for code
generation backed by a comprehensive and on-the-fly execution environment.
Built on top of Chatbot Arena, BigCodeArena enables the execution of
LLM-generated code and allows humans to interact with the execution process and
outcomes. We collected over 14,000 raw code-centric conversation sessions
across 10 widely used LLMs, spanning 10 languages and 8 types of execution
environments. Among these conversations, we identified more than 4,700
multi-turn samples with pairwise human preferences. Further analysis uncovers
underexplored preferences of LLMs in fine-grained domains characterized by
tasks, languages, and frameworks. To systematically examine code understanding
and generation capabilities of frontier LLMs, we curated two benchmarks based
on the collected data, namely BigCodeReward and AutoCodeArena. For
BigCodeReward, we post-processed the 4,700 conversations and evaluated the
consistency between reward models and human preferences. The evaluation shows
that most LLMs have superior performance in judging coding preferences when the
execution results are available. Inspired by these findings, we propose
AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding
quality of LLMs without human involvement. We find that proprietary LLMs like
GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation
performance among recent emerging models.