BigCodeArena: Zuverlässigere menschliche Präferenzen in der Code-Generierung durch Ausführung aufdecken

papers.abstract

Crowdsourcing-Plattformen zur Modellbewertung, wie beispielsweise Chatbot Arena, ermöglichen die Echtzeitbewertung aus menschlicher Perspektive, um die Qualität von Modellantworten zu beurteilen. Im Bereich der Programmierung ist die manuelle Überprüfung der Qualität von LLM-generierten Inhalten äußerst anspruchsvoll, da sie das Verständnis langer Rohcode-Abschnitte und die gezielte Simulation der Codeausführung erfordert. Vor diesem Hintergrund stellen wir BigCodeArena vor, eine offene Plattform zur menschlichen Bewertung von Codegenerierung, die von einer umfassenden und sofort verfügbaren Ausführungsumgebung unterstützt wird. Basierend auf Chatbot Arena ermöglicht BigCodeArena die Ausführung von LLM-generiertem Code und erlaubt es Nutzern, mit dem Ausführungsprozess und dessen Ergebnissen zu interagieren. Wir haben über 14.000 rohe, codezentrierte Konversationssitzungen über 10 weit verbreitete LLMs hinweg gesammelt, die 10 Programmiersprachen und 8 Arten von Ausführungsumgebungen abdecken. Unter diesen Konversationen identifizierten wir mehr als 4.700 Mehrfachturn-Beispiele mit paarweisen menschlichen Präferenzen. Eine weiterführende Analyse deckt bisher wenig erforschte Präferenzen von LLMs in feingranularen Domänen auf, die durch Aufgaben, Sprachen und Frameworks charakterisiert sind. Um die Codeverständnis- und Generierungsfähigkeiten führender LLMs systematisch zu untersuchen, haben wir zwei Benchmarks auf Basis der gesammelten Daten kuratiert, nämlich BigCodeReward und AutoCodeArena. Für BigCodeReward haben wir die 4.700 Konversationen nachbearbeitet und die Übereinstimmung zwischen Belohnungsmodellen und menschlichen Präferenzen bewertet. Die Auswertung zeigt, dass die meisten LLMs bei der Beurteilung von Codierungspräferenzen überlegene Leistungen erbringen, wenn die Ausführungsergebnisse verfügbar sind. Inspiriert durch diese Erkenntnisse schlagen wir AutoCodeArena vor, einen automatischen Elo-Rating-Benchmark, der darauf abzielt, die Codequalität von LLMs ohne menschliches Zutun zu bewerten. Wir stellen fest, dass proprietäre LLMs wie GPT-5, Claude-Sonnet-4 und Claude-Opus-4 in der Codegenerierungsleistung unter den kürzlich aufkommenden Modellen weiterhin führend sind.

English

Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execution environment. Built on top of Chatbot Arena, BigCodeArena enables the execution of LLM-generated code and allows humans to interact with the execution process and outcomes. We collected over 14,000 raw code-centric conversation sessions across 10 widely used LLMs, spanning 10 languages and 8 types of execution environments. Among these conversations, we identified more than 4,700 multi-turn samples with pairwise human preferences. Further analysis uncovers underexplored preferences of LLMs in fine-grained domains characterized by tasks, languages, and frameworks. To systematically examine code understanding and generation capabilities of frontier LLMs, we curated two benchmarks based on the collected data, namely BigCodeReward and AutoCodeArena. For BigCodeReward, we post-processed the 4,700 conversations and evaluated the consistency between reward models and human preferences. The evaluation shows that most LLMs have superior performance in judging coding preferences when the execution results are available. Inspired by these findings, we propose AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding quality of LLMs without human involvement. We find that proprietary LLMs like GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation performance among recent emerging models.

BigCodeArena: Zuverlässigere menschliche Präferenzen in der Code-Generierung durch Ausführung aufdecken

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

papers.abstract

Support