BigCodeArena: Revelando Preferências Humanas Mais Confiáveis na Geração de Código por meio de Execução
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
October 9, 2025
Autores: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra
cs.AI
Resumo
Plataformas de avaliação de modelos baseadas em crowdsourcing, como o Chatbot Arena, permitem a avaliação em tempo real a partir de perspectivas humanas para mensurar a qualidade das respostas dos modelos. No domínio da codificação, examinar manualmente a qualidade do conteúdo gerado por LLMs é extremamente desafiador, pois exige a compreensão de longos trechos de código bruto e a simulação deliberada da execução do código. Para isso, introduzimos o BigCodeArena, uma plataforma aberta de avaliação humana para geração de código, apoiada por um ambiente de execução abrangente e em tempo real. Construído sobre o Chatbot Arena, o BigCodeArena permite a execução de código gerado por LLMs e possibilita que humanos interajam com o processo de execução e seus resultados. Coletamos mais de 14.000 sessões de conversa centradas em código em 10 LLMs amplamente utilizados, abrangendo 10 linguagens e 8 tipos de ambientes de execução. Dentre essas conversas, identificamos mais de 4.700 amostras de múltiplos turnos com preferências humanas pareadas. Análises adicionais revelam preferências pouco exploradas dos LLMs em domínios de granularidade fina, caracterizados por tarefas, linguagens e frameworks. Para examinar sistematicamente as capacidades de compreensão e geração de código dos LLMs de ponta, criamos dois benchmarks baseados nos dados coletados: BigCodeReward e AutoCodeArena. Para o BigCodeReward, pós-processamos as 4.700 conversas e avaliamos a consistência entre modelos de recompensa e preferências humanas. A avaliação mostra que a maioria dos LLMs tem desempenho superior ao julgar preferências de codificação quando os resultados de execução estão disponíveis. Inspirados por essas descobertas, propomos o AutoCodeArena, um benchmark automático de classificação Elo projetado para avaliar a qualidade de codificação de LLMs sem envolvimento humano. Constatamos que LLMs proprietários como GPT-5, Claude-Sonnet-4 e Claude-Opus-4 ainda lideram em desempenho de geração de código entre os modelos emergentes recentes.
English
Crowdsourced model evaluation platforms, such as Chatbot Arena, enable
real-time evaluation from human perspectives to assess the quality of model
responses. In the coding domain, manually examining the quality of
LLM-generated content is extremely challenging, as it requires understanding
long chunks of raw code and deliberately simulating code execution. To this
end, we introduce BigCodeArena, an open human evaluation platform for code
generation backed by a comprehensive and on-the-fly execution environment.
Built on top of Chatbot Arena, BigCodeArena enables the execution of
LLM-generated code and allows humans to interact with the execution process and
outcomes. We collected over 14,000 raw code-centric conversation sessions
across 10 widely used LLMs, spanning 10 languages and 8 types of execution
environments. Among these conversations, we identified more than 4,700
multi-turn samples with pairwise human preferences. Further analysis uncovers
underexplored preferences of LLMs in fine-grained domains characterized by
tasks, languages, and frameworks. To systematically examine code understanding
and generation capabilities of frontier LLMs, we curated two benchmarks based
on the collected data, namely BigCodeReward and AutoCodeArena. For
BigCodeReward, we post-processed the 4,700 conversations and evaluated the
consistency between reward models and human preferences. The evaluation shows
that most LLMs have superior performance in judging coding preferences when the
execution results are available. Inspired by these findings, we propose
AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding
quality of LLMs without human involvement. We find that proprietary LLMs like
GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation
performance among recent emerging models.