BigCodeArena: 코드 실행을 통해 더 신뢰할 수 있는 인간의 선호도 드러내기
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
October 9, 2025
저자: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra
cs.AI
초록
Chatbot Arena와 같은 크라우드소싱 모델 평가 플랫폼은 인간의 관점에서 실시간으로 모델 응답의 품질을 평가할 수 있게 합니다. 코딩 영역에서는 LLM(대형 언어 모델)이 생성한 콘텐츠의 품질을 수동으로 검토하는 것이 매우 어려운데, 이는 긴 원시 코드를 이해하고 의도적으로 코드 실행을 시뮬레이션해야 하기 때문입니다. 이를 위해 우리는 포괄적이고 즉시 실행 가능한 환경을 기반으로 한 코드 생성을 위한 오픈형 인간 평가 플랫폼인 BigCodeArena를 소개합니다. Chatbot Arena를 기반으로 구축된 BigCodeArena는 LLM이 생성한 코드를 실행하고 인간이 실행 과정 및 결과와 상호작용할 수 있게 합니다. 우리는 10개의 널리 사용되는 LLM에 걸쳐 10개 언어와 8가지 유형의 실행 환경에서 14,000개 이상의 원시 코드 중심 대화 세션을 수집했습니다. 이 대화들 중에서 우리는 4,700개 이상의 다중 턴 샘플을 식별하고 인간의 쌍별 선호도를 기록했습니다. 추가 분석을 통해 우리는 작업, 언어, 프레임워크로 특징지어지는 세분화된 영역에서 LLM의 미탐구 선호도를 발견했습니다. 최첨단 LLM의 코드 이해 및 생성 능력을 체계적으로 검토하기 위해, 우리는 수집된 데이터를 기반으로 BigCodeReward와 AutoCodeArena라는 두 가지 벤치마크를 구성했습니다. BigCodeReward의 경우, 우리는 4,700개 대화를 후처리하고 보상 모델과 인간 선호도 간의 일관성을 평가했습니다. 평가 결과, 실행 결과가 제공될 때 대부분의 LLM이 코딩 선호도를 판단하는 데 우수한 성능을 보이는 것으로 나타났습니다. 이러한 발견에 영감을 받아, 우리는 인간의 개입 없이 LLM의 코딩 품질을 평가하기 위해 설계된 자동 Elo 등급 벤치마크인 AutoCodeArena를 제안합니다. 우리는 GPT-5, Claude-Sonnet-4, Claude-Opus-4와 같은 독점 LLM이 최근 등장한 모델들 중에서 여전히 코드 생성 성능에서 선두를 차지하고 있음을 발견했습니다.
English
Crowdsourced model evaluation platforms, such as Chatbot Arena, enable
real-time evaluation from human perspectives to assess the quality of model
responses. In the coding domain, manually examining the quality of
LLM-generated content is extremely challenging, as it requires understanding
long chunks of raw code and deliberately simulating code execution. To this
end, we introduce BigCodeArena, an open human evaluation platform for code
generation backed by a comprehensive and on-the-fly execution environment.
Built on top of Chatbot Arena, BigCodeArena enables the execution of
LLM-generated code and allows humans to interact with the execution process and
outcomes. We collected over 14,000 raw code-centric conversation sessions
across 10 widely used LLMs, spanning 10 languages and 8 types of execution
environments. Among these conversations, we identified more than 4,700
multi-turn samples with pairwise human preferences. Further analysis uncovers
underexplored preferences of LLMs in fine-grained domains characterized by
tasks, languages, and frameworks. To systematically examine code understanding
and generation capabilities of frontier LLMs, we curated two benchmarks based
on the collected data, namely BigCodeReward and AutoCodeArena. For
BigCodeReward, we post-processed the 4,700 conversations and evaluated the
consistency between reward models and human preferences. The evaluation shows
that most LLMs have superior performance in judging coding preferences when the
execution results are available. Inspired by these findings, we propose
AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding
quality of LLMs without human involvement. We find that proprietary LLMs like
GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation
performance among recent emerging models.