Estética do Código com Retroalimentação de Recompensa Agente
Code Aesthetics with Agentic Reward Feedback
October 27, 2025
Autores: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
cs.AI
Resumo
Os Grandes Modelos de Linguagem (LLMs) tornaram-se assistentes valiosos para desenvolvedores em tarefas relacionadas a código. Embora os LLMs se destaquem em tarefas de programação tradicionais, como geração de código e correção de bugs, eles têm dificuldades com tarefas de codificação visualmente orientadas, frequentemente produzindo estéticas subótimas. Neste artigo, introduzimos um novo *pipeline* para melhorar a qualidade estética do código gerado por LLMs. Primeiro, construímos o AesCode-358K, um conjunto de dados de *fine-tuning* por instrução em larga escala focado na estética do código. Em seguida, propomos o *feedback* de recompensa agentico, um sistema multiagente que avalia a executabilidade, a estética estática e a estética interativa. Com base nisso, desenvolvemos o GRPO-AR, que integra esses sinais no algoritmo GRPO para otimização conjunta da funcionalidade e da estética do código. Finalmente, desenvolvemos o OpenDesign, um *benchmark* para avaliar a estética do código. Resultados experimentais mostram que combinar o *fine-tuning* supervisionado no AesCode-358K com o aprendizado por reforço usando o *feedback* de recompensa agentico melhora significativamente o desempenho no OpenDesign e também aprimora os resultados em *benchmarks* existentes, como o PandasPlotBench. Notavelmente, nosso AesCoder-4B supera o GPT-4o e o GPT-4.1, e alcança desempenho comparável a grandes modelos de código aberto com 480B-685B de parâmetros, ressaltando a eficácia da nossa abordagem.
English
Large Language Models (LLMs) have become valuable assistants for developers
in code-related tasks. While LLMs excel at traditional programming tasks such
as code generation and bug fixing, they struggle with visually-oriented coding
tasks, often producing suboptimal aesthetics. In this paper, we introduce a new
pipeline to enhance the aesthetic quality of LLM-generated code. We first
construct AesCode-358K, a large-scale instruction-tuning dataset focused on
code aesthetics. Next, we propose agentic reward feedback, a multi-agent system
that evaluates executability, static aesthetics, and interactive aesthetics.
Building on this, we develop GRPO-AR, which integrates these signals into the
GRPO algorithm for joint optimization of functionality and code aesthetics.
Finally, we develop OpenDesign, a benchmark for assessing code aesthetics.
Experimental results show that combining supervised fine-tuning on AesCode-358K
with reinforcement learning using agentic reward feedback significantly
improves performance on OpenDesign and also enhances results on existing
benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o
and GPT-4.1, and achieves performance comparable to large open-source models
with 480B-685B parameters, underscoring the effectiveness of our approach.