ChatPaper.aiChatPaper

BigCodeArena: Revelando Preferencias Humanas Más Confiables en la Generación de Código mediante Ejecución

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

October 9, 2025
Autores: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra
cs.AI

Resumen

Las plataformas de evaluación de modelos mediante crowdsourcing, como Chatbot Arena, permiten la evaluación en tiempo real desde perspectivas humanas para valorar la calidad de las respuestas de los modelos. En el ámbito de la codificación, examinar manualmente la calidad del contenido generado por LLM es extremadamente desafiante, ya que requiere comprender fragmentos extensos de código crudo y simular deliberadamente la ejecución del código. Para abordar esto, presentamos BigCodeArena, una plataforma abierta de evaluación humana para la generación de código respaldada por un entorno de ejecución integral y en tiempo real. Construida sobre Chatbot Arena, BigCodeArena permite la ejecución de código generado por LLM y facilita la interacción humana con el proceso de ejecución y sus resultados. Recopilamos más de 14,000 sesiones de conversación centradas en código en bruto, abarcando 10 LLM ampliamente utilizados, 10 lenguajes y 8 tipos de entornos de ejecución. Entre estas conversaciones, identificamos más de 4,700 muestras de múltiples turnos con preferencias humanas comparativas. Un análisis más profundo revela preferencias poco exploradas de los LLM en dominios específicos caracterizados por tareas, lenguajes y frameworks. Para examinar sistemáticamente las capacidades de comprensión y generación de código de los LLM más avanzados, creamos dos benchmarks basados en los datos recopilados: BigCodeReward y AutoCodeArena. Para BigCodeReward, procesamos las 4,700 conversaciones y evaluamos la consistencia entre los modelos de recompensa y las preferencias humanas. La evaluación muestra que la mayoría de los LLM tienen un rendimiento superior al juzgar preferencias de codificación cuando los resultados de ejecución están disponibles. Inspirados por estos hallazgos, proponemos AutoCodeArena, un benchmark automático de calificación Elo diseñado para evaluar la calidad de codificación de los LLM sin intervención humana. Descubrimos que los LLM propietarios como GPT-5, Claude-Sonnet-4 y Claude-Opus-4 siguen liderando en rendimiento de generación de código entre los modelos emergentes recientes.
English
Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execution environment. Built on top of Chatbot Arena, BigCodeArena enables the execution of LLM-generated code and allows humans to interact with the execution process and outcomes. We collected over 14,000 raw code-centric conversation sessions across 10 widely used LLMs, spanning 10 languages and 8 types of execution environments. Among these conversations, we identified more than 4,700 multi-turn samples with pairwise human preferences. Further analysis uncovers underexplored preferences of LLMs in fine-grained domains characterized by tasks, languages, and frameworks. To systematically examine code understanding and generation capabilities of frontier LLMs, we curated two benchmarks based on the collected data, namely BigCodeReward and AutoCodeArena. For BigCodeReward, we post-processed the 4,700 conversations and evaluated the consistency between reward models and human preferences. The evaluation shows that most LLMs have superior performance in judging coding preferences when the execution results are available. Inspired by these findings, we propose AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding quality of LLMs without human involvement. We find that proprietary LLMs like GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation performance among recent emerging models.
PDF293October 13, 2025