Esthétique du Code avec Rétroaction de Récompense Agentique
Code Aesthetics with Agentic Reward Feedback
October 27, 2025
papers.authors: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont devenus des assistants précieux pour les développeurs dans les tâches liées au code. Bien que les LLM excellent dans les tâches de programmation traditionnelles telles que la génération de code et la correction de bogues, ils peinent avec les tâches de codage à orientation visuelle, produisant souvent des résultats esthétiques sous-optimaux. Dans cet article, nous présentons une nouvelle pipeline pour améliorer la qualité esthétique du code généré par les LLM. Nous construisons d'abord AesCode-358K, un jeu de données d'ajustement par instruction à grande échelle axé sur l'esthétique du code. Ensuite, nous proposons le *feedback de récompense agentique*, un système multi-agents qui évalue l'exécutabilité, l'esthétique statique et l'esthétique interactive. Sur cette base, nous développons GRPO-AR, qui intègre ces signaux dans l'algorithme GRPO pour une optimisation conjointe de la fonctionnalité et de l'esthétique du code. Enfin, nous développons OpenDesign, un benchmark pour évaluer l'esthétique du code. Les résultats expérimentaux montrent que la combinaison de l'ajustement fin supervisé sur AesCode-358K avec l'apprentissage par renforcement utilisant le feedback de récompense agentique améliore significativement les performances sur OpenDesign et améliore également les résultats sur des benchmarks existants tels que PandasPlotBench. Notamment, notre modèle AesCoder-4B surpasse GPT-4o et GPT-4.1, et atteint des performances comparables à de grands modèles open-source avec 480B-685B paramètres, soulignant l'efficacité de notre approche.
English
Large Language Models (LLMs) have become valuable assistants for developers
in code-related tasks. While LLMs excel at traditional programming tasks such
as code generation and bug fixing, they struggle with visually-oriented coding
tasks, often producing suboptimal aesthetics. In this paper, we introduce a new
pipeline to enhance the aesthetic quality of LLM-generated code. We first
construct AesCode-358K, a large-scale instruction-tuning dataset focused on
code aesthetics. Next, we propose agentic reward feedback, a multi-agent system
that evaluates executability, static aesthetics, and interactive aesthetics.
Building on this, we develop GRPO-AR, which integrates these signals into the
GRPO algorithm for joint optimization of functionality and code aesthetics.
Finally, we develop OpenDesign, a benchmark for assessing code aesthetics.
Experimental results show that combining supervised fine-tuning on AesCode-358K
with reinforcement learning using agentic reward feedback significantly
improves performance on OpenDesign and also enhances results on existing
benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o
and GPT-4.1, and achieves performance comparable to large open-source models
with 480B-685B parameters, underscoring the effectiveness of our approach.