BigCodeArena: Svelare Preferenze Umane Più Affidabili nella Generazione di Codice tramite Esecuzione

Abstract

Le piattaforme di valutazione dei modelli basate sul crowdsourcing, come Chatbot Arena, consentono una valutazione in tempo reale da prospettive umane per giudicare la qualità delle risposte dei modelli. Nel dominio della programmazione, esaminare manualmente la qualità dei contenuti generati da LLM è estremamente impegnativo, poiché richiede la comprensione di lunghi blocchi di codice grezzo e la simulazione deliberata dell'esecuzione del codice. A tal fine, introduciamo BigCodeArena, una piattaforma aperta di valutazione umana per la generazione di codice, supportata da un ambiente di esecuzione completo e in tempo reale. Costruita su Chatbot Arena, BigCodeArena permette l'esecuzione del codice generato da LLM e consente agli esseri umani di interagire con il processo di esecuzione e i suoi risultati. Abbiamo raccolto oltre 14.000 sessioni di conversazione incentrate sul codice grezzo, utilizzando 10 LLM ampiamente diffusi, coprendo 10 linguaggi e 8 tipi di ambienti di esecuzione. Tra queste conversazioni, abbiamo identificato più di 4.700 campioni multi-turn con preferenze umane accoppiate. Un'ulteriore analisi rivela preferenze poco esplorate degli LLM in domini granulari caratterizzati da compiti, linguaggi e framework. Per esaminare sistematicamente le capacità di comprensione e generazione del codice degli LLM all'avanguardia, abbiamo curato due benchmark basati sui dati raccolti, ovvero BigCodeReward e AutoCodeArena. Per BigCodeReward, abbiamo post-elaborato le 4.700 conversazioni e valutato la coerenza tra i modelli di ricompensa e le preferenze umane. La valutazione mostra che la maggior parte degli LLM ha prestazioni superiori nel giudicare le preferenze di codifica quando i risultati dell'esecuzione sono disponibili. Ispirati da questi risultati, proponiamo AutoCodeArena, un benchmark automatico di valutazione Elo progettato per valutare la qualità del codice degli LLM senza il coinvolgimento umano. Scopriamo che LLM proprietari come GPT-5, Claude-Sonnet-4 e Claude-Opus-4 continuano a primeggiare nelle prestazioni di generazione del codice tra i modelli emergenti recenti.

English

Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execution environment. Built on top of Chatbot Arena, BigCodeArena enables the execution of LLM-generated code and allows humans to interact with the execution process and outcomes. We collected over 14,000 raw code-centric conversation sessions across 10 widely used LLMs, spanning 10 languages and 8 types of execution environments. Among these conversations, we identified more than 4,700 multi-turn samples with pairwise human preferences. Further analysis uncovers underexplored preferences of LLMs in fine-grained domains characterized by tasks, languages, and frameworks. To systematically examine code understanding and generation capabilities of frontier LLMs, we curated two benchmarks based on the collected data, namely BigCodeReward and AutoCodeArena. For BigCodeReward, we post-processed the 4,700 conversations and evaluated the consistency between reward models and human preferences. The evaluation shows that most LLMs have superior performance in judging coding preferences when the execution results are available. Inspired by these findings, we propose AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding quality of LLMs without human involvement. We find that proprietary LLMs like GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation performance among recent emerging models.

BigCodeArena: Svelare Preferenze Umane Più Affidabili nella Generazione di Codice tramite Esecuzione

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

Abstract

Support