Code-esthetiek met Agentische Beloningsfeedback
Code Aesthetics with Agentic Reward Feedback
October 27, 2025
Auteurs: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) zijn waardevolle assistenten geworden voor ontwikkelaars bij code-gerelateerde taken. Hoewel LLM's uitblinken in traditionele programmeertaken zoals codegeneratie en bugfixes, hebben ze moeite met visueel georiënteerde codeertaken, waarbij ze vaak suboptimale esthetiek produceren. In dit artikel introduceren we een nieuwe pijplijn om de esthetische kwaliteit van door LLM's gegenereerde code te verbeteren. We construeren eerst AesCode-358K, een grootschalige instruction-tuning dataset gericht op code-esthetiek. Vervolgens stellen we *agentic reward feedback* voor, een multi-agent systeem dat de uitvoerbaarheid, statische esthetiek en interactieve esthetiek evalueert. Hierop voortbordurend ontwikkelen we GRPO-AR, dat deze signalen integreert in het GRPO-algoritme voor gezamenlijke optimalisatie van functionaliteit en code-esthetiek. Ten slotte ontwikkelen we OpenDesign, een benchmark voor het beoordelen van code-esthetiek. Experimentele resultaten tonen aan dat de combinatie van supervised fine-tuning op AesCode-358K met reinforcement learning met behulp van *agentic reward feedback* de prestaties op OpenDesign aanzienlijk verbetert en ook de resultaten op bestaande benchmarks zoals PandasPlotBench versterkt. Opmerkelijk is dat onze AesCoder-4B GPT-4o en GPT-4.1 overtreft, en prestaties bereikt die vergelijkbaar zijn met grote open-source modellen met 480B-685B parameters, wat de effectiviteit van onze aanpak onderstreept.
English
Large Language Models (LLMs) have become valuable assistants for developers
in code-related tasks. While LLMs excel at traditional programming tasks such
as code generation and bug fixing, they struggle with visually-oriented coding
tasks, often producing suboptimal aesthetics. In this paper, we introduce a new
pipeline to enhance the aesthetic quality of LLM-generated code. We first
construct AesCode-358K, a large-scale instruction-tuning dataset focused on
code aesthetics. Next, we propose agentic reward feedback, a multi-agent system
that evaluates executability, static aesthetics, and interactive aesthetics.
Building on this, we develop GRPO-AR, which integrates these signals into the
GRPO algorithm for joint optimization of functionality and code aesthetics.
Finally, we develop OpenDesign, a benchmark for assessing code aesthetics.
Experimental results show that combining supervised fine-tuning on AesCode-358K
with reinforcement learning using agentic reward feedback significantly
improves performance on OpenDesign and also enhances results on existing
benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o
and GPT-4.1, and achieves performance comparable to large open-source models
with 480B-685B parameters, underscoring the effectiveness of our approach.