Code-Ästhetik mit agentiver Belohnungsrückmeldung
Code Aesthetics with Agentic Reward Feedback
October 27, 2025
papers.authors: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben sich als wertvolle Assistenten für Entwickler bei codebezogenen Aufgaben etabliert. Während LLMs bei traditionellen Programmieraufgaben wie Code-Generierung und Fehlerbehebung hervorragende Leistungen erbringen, haben sie Schwierigkeiten mit visuell orientierten Codieraufgaben und erzeugen oft suboptimale Ästhetik. In diesem Artikel stellen wir eine neue Pipeline zur Verbesserung der ästhetischen Qualität von LLM-generiertem Code vor. Zunächst erstellen wir AesCode-358K, einen groß angelegten Instruction-Tuning-Datensatz mit Fokus auf Code-Ästhetik. Anschließend schlagen wir agentisches Belohnungsfeedback vor, ein Multi-Agenten-System, das Ausführbarkeit, statische Ästhetik und interaktive Ästhetik bewertet. Darauf aufbauend entwickeln wir GRPO-AR, das diese Signale in den GRPO-Algorithmus zur gemeinsamen Optimierung von Funktionalität und Code-Ästhetik integriert. Abschließend entwickeln wir OpenDesign, einen Benchmark zur Bewertung von Code-Ästhetik. Experimentelle Ergebnisse zeigen, dass die Kombination von überwachtem Fein-Tuning auf AesCode-358K mit bestärkendem Lernen unter Verwendung von agentischem Belohnungsfeedback die Leistung auf OpenDesign signifikant verbessert und auch die Ergebnisse auf bestehenden Benchmarks wie PandasPlotBench steigert. Bemerkenswerterweise übertrifft unser AesCoder-4B GPT-4o und GPT-4.1 und erreicht eine Leistung, die mit großen Open-Source-Modellen mit 480B-685B Parametern vergleichbar ist, was die Wirksamkeit unseres Ansatzes unterstreicht.
English
Large Language Models (LLMs) have become valuable assistants for developers
in code-related tasks. While LLMs excel at traditional programming tasks such
as code generation and bug fixing, they struggle with visually-oriented coding
tasks, often producing suboptimal aesthetics. In this paper, we introduce a new
pipeline to enhance the aesthetic quality of LLM-generated code. We first
construct AesCode-358K, a large-scale instruction-tuning dataset focused on
code aesthetics. Next, we propose agentic reward feedback, a multi-agent system
that evaluates executability, static aesthetics, and interactive aesthetics.
Building on this, we develop GRPO-AR, which integrates these signals into the
GRPO algorithm for joint optimization of functionality and code aesthetics.
Finally, we develop OpenDesign, a benchmark for assessing code aesthetics.
Experimental results show that combining supervised fine-tuning on AesCode-358K
with reinforcement learning using agentic reward feedback significantly
improves performance on OpenDesign and also enhances results on existing
benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o
and GPT-4.1, and achieves performance comparable to large open-source models
with 480B-685B parameters, underscoring the effectiveness of our approach.