Code-Ästhetik mit agentiver Belohnungsrückmeldung

papers.abstract

Große Sprachmodelle (LLMs) haben sich als wertvolle Assistenten für Entwickler bei codebezogenen Aufgaben etabliert. Während LLMs bei traditionellen Programmieraufgaben wie Code-Generierung und Fehlerbehebung hervorragende Leistungen erbringen, haben sie Schwierigkeiten mit visuell orientierten Codieraufgaben und erzeugen oft suboptimale Ästhetik. In diesem Artikel stellen wir eine neue Pipeline zur Verbesserung der ästhetischen Qualität von LLM-generiertem Code vor. Zunächst erstellen wir AesCode-358K, einen groß angelegten Instruction-Tuning-Datensatz mit Fokus auf Code-Ästhetik. Anschließend schlagen wir agentisches Belohnungsfeedback vor, ein Multi-Agenten-System, das Ausführbarkeit, statische Ästhetik und interaktive Ästhetik bewertet. Darauf aufbauend entwickeln wir GRPO-AR, das diese Signale in den GRPO-Algorithmus zur gemeinsamen Optimierung von Funktionalität und Code-Ästhetik integriert. Abschließend entwickeln wir OpenDesign, einen Benchmark zur Bewertung von Code-Ästhetik. Experimentelle Ergebnisse zeigen, dass die Kombination von überwachtem Fein-Tuning auf AesCode-358K mit bestärkendem Lernen unter Verwendung von agentischem Belohnungsfeedback die Leistung auf OpenDesign signifikant verbessert und auch die Ergebnisse auf bestehenden Benchmarks wie PandasPlotBench steigert. Bemerkenswerterweise übertrifft unser AesCoder-4B GPT-4o und GPT-4.1 und erreicht eine Leistung, die mit großen Open-Source-Modellen mit 480B-685B Parametern vergleichbar ist, was die Wirksamkeit unseres Ansatzes unterstreicht.

English

Large Language Models (LLMs) have become valuable assistants for developers in code-related tasks. While LLMs excel at traditional programming tasks such as code generation and bug fixing, they struggle with visually-oriented coding tasks, often producing suboptimal aesthetics. In this paper, we introduce a new pipeline to enhance the aesthetic quality of LLM-generated code. We first construct AesCode-358K, a large-scale instruction-tuning dataset focused on code aesthetics. Next, we propose agentic reward feedback, a multi-agent system that evaluates executability, static aesthetics, and interactive aesthetics. Building on this, we develop GRPO-AR, which integrates these signals into the GRPO algorithm for joint optimization of functionality and code aesthetics. Finally, we develop OpenDesign, a benchmark for assessing code aesthetics. Experimental results show that combining supervised fine-tuning on AesCode-358K with reinforcement learning using agentic reward feedback significantly improves performance on OpenDesign and also enhances results on existing benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o and GPT-4.1, and achieves performance comparable to large open-source models with 480B-685B parameters, underscoring the effectiveness of our approach.

Code-Ästhetik mit agentiver Belohnungsrückmeldung

Code Aesthetics with Agentic Reward Feedback

papers.abstract

Support