Estética del Código con Retroalimentación de Recompensa Agéntica
Code Aesthetics with Agentic Reward Feedback
October 27, 2025
Autores: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs) se han convertido en asistentes valiosos para los desarrolladores en tareas relacionadas con código. Si bien los LLMs sobresalen en tareas de programación tradicionales como la generación de código y la corrección de errores, tienen dificultades con las tareas de codificación orientadas visualmente, a menudo produciendo una estética subóptima. En este artículo, presentamos una nueva canalización para mejorar la calidad estética del código generado por LLMs. Primero construimos AesCode-358K, un conjunto de datos de ajuste por instrucciones a gran escala centrado en la estética del código. A continuación, proponemos la retroalimentación de recompensa agéntica, un sistema multiagente que evalúa la ejecutabilidad, la estética estática y la estética interactiva. Sobre esta base, desarrollamos GRPO-AR, que integra estas señales en el algoritmo GRPO para la optimización conjunta de la funcionalidad y la estética del código. Finalmente, desarrollamos OpenDesign, un punto de referencia para evaluar la estética del código. Los resultados experimentales muestran que combinar el ajuste fino supervisado en AesCode-358K con el aprendizaje por refuerzo utilizando retroalimentación de recompensa agéntica mejora significativamente el rendimiento en OpenDesign y también mejora los resultados en puntos de referencia existentes como PandasPlotBench. Cabe destacar que nuestro AesCoder-4B supera a GPT-4o y GPT-4.1, y logra un rendimiento comparable a modelos de código abierto grandes con 480B-685B parámetros, lo que subraya la efectividad de nuestro enfoque.
English
Large Language Models (LLMs) have become valuable assistants for developers
in code-related tasks. While LLMs excel at traditional programming tasks such
as code generation and bug fixing, they struggle with visually-oriented coding
tasks, often producing suboptimal aesthetics. In this paper, we introduce a new
pipeline to enhance the aesthetic quality of LLM-generated code. We first
construct AesCode-358K, a large-scale instruction-tuning dataset focused on
code aesthetics. Next, we propose agentic reward feedback, a multi-agent system
that evaluates executability, static aesthetics, and interactive aesthetics.
Building on this, we develop GRPO-AR, which integrates these signals into the
GRPO algorithm for joint optimization of functionality and code aesthetics.
Finally, we develop OpenDesign, a benchmark for assessing code aesthetics.
Experimental results show that combining supervised fine-tuning on AesCode-358K
with reinforcement learning using agentic reward feedback significantly
improves performance on OpenDesign and also enhances results on existing
benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o
and GPT-4.1, and achieves performance comparable to large open-source models
with 480B-685B parameters, underscoring the effectiveness of our approach.