Эстетика кода с агентивным вознаграждением за обратную связь
Code Aesthetics with Agentic Reward Feedback
October 27, 2025
Авторы: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
cs.AI
Аннотация
Крупные языковые модели (LLMs) стали ценными помощниками для разработчиков в задачах, связанных с кодом. Хотя LLMs преуспевают в традиционных задачах программирования, таких как генерация кода и исправление ошибок, они испытывают трудности с визуально-ориентированными задачами кодирования, часто создавая код с неоптимальными эстетическими качествами. В данной статье мы представляем новый конвейер для повышения эстетического качества кода, генерируемого LLM. Сначала мы создаем AesCode-358K — масштабный набор данных для тонкой настройки по инструкциям, сфокусированный на эстетике кода. Далее мы предлагаем систему агентной обратной связи по вознаграждению — мульти-агентную систему, которая оценивает исполняемость, статическую и интерактивную эстетику. На основе этого мы разрабатываем GRPO-AR, который интегрирует эти сигналы в алгоритм GRPO для совместной оптимизации функциональности и эстетики кода. Наконец, мы создаем OpenDesign — бенчмарк для оценки эстетики кода. Результаты экспериментов показывают, что комбинация контролируемой тонкой настройки на AesCode-358K с обучением с подкреплением с использованием агентной обратной связи по вознаграждению значительно улучшает производительность на OpenDesign, а также повышает результаты на существующих бенчмарках, таких как PandasPlotBench. Примечательно, что наша модель AesCoder-4B превосходит GPT-4o и GPT-4.1 и демонстрирует результаты, сопоставимые с крупными открытыми моделями, имеющими 480–685 миллиардов параметров, что подчеркивает эффективность нашего подхода.
English
Large Language Models (LLMs) have become valuable assistants for developers
in code-related tasks. While LLMs excel at traditional programming tasks such
as code generation and bug fixing, they struggle with visually-oriented coding
tasks, often producing suboptimal aesthetics. In this paper, we introduce a new
pipeline to enhance the aesthetic quality of LLM-generated code. We first
construct AesCode-358K, a large-scale instruction-tuning dataset focused on
code aesthetics. Next, we propose agentic reward feedback, a multi-agent system
that evaluates executability, static aesthetics, and interactive aesthetics.
Building on this, we develop GRPO-AR, which integrates these signals into the
GRPO algorithm for joint optimization of functionality and code aesthetics.
Finally, we develop OpenDesign, a benchmark for assessing code aesthetics.
Experimental results show that combining supervised fine-tuning on AesCode-358K
with reinforcement learning using agentic reward feedback significantly
improves performance on OpenDesign and also enhances results on existing
benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o
and GPT-4.1, and achieves performance comparable to large open-source models
with 480B-685B parameters, underscoring the effectiveness of our approach.