Эстетика кода с агентивным вознаграждением за обратную связь

Аннотация

Крупные языковые модели (LLMs) стали ценными помощниками для разработчиков в задачах, связанных с кодом. Хотя LLMs преуспевают в традиционных задачах программирования, таких как генерация кода и исправление ошибок, они испытывают трудности с визуально-ориентированными задачами кодирования, часто создавая код с неоптимальными эстетическими качествами. В данной статье мы представляем новый конвейер для повышения эстетического качества кода, генерируемого LLM. Сначала мы создаем AesCode-358K — масштабный набор данных для тонкой настройки по инструкциям, сфокусированный на эстетике кода. Далее мы предлагаем систему агентной обратной связи по вознаграждению — мульти-агентную систему, которая оценивает исполняемость, статическую и интерактивную эстетику. На основе этого мы разрабатываем GRPO-AR, который интегрирует эти сигналы в алгоритм GRPO для совместной оптимизации функциональности и эстетики кода. Наконец, мы создаем OpenDesign — бенчмарк для оценки эстетики кода. Результаты экспериментов показывают, что комбинация контролируемой тонкой настройки на AesCode-358K с обучением с подкреплением с использованием агентной обратной связи по вознаграждению значительно улучшает производительность на OpenDesign, а также повышает результаты на существующих бенчмарках, таких как PandasPlotBench. Примечательно, что наша модель AesCoder-4B превосходит GPT-4o и GPT-4.1 и демонстрирует результаты, сопоставимые с крупными открытыми моделями, имеющими 480–685 миллиардов параметров, что подчеркивает эффективность нашего подхода.

English

Large Language Models (LLMs) have become valuable assistants for developers in code-related tasks. While LLMs excel at traditional programming tasks such as code generation and bug fixing, they struggle with visually-oriented coding tasks, often producing suboptimal aesthetics. In this paper, we introduce a new pipeline to enhance the aesthetic quality of LLM-generated code. We first construct AesCode-358K, a large-scale instruction-tuning dataset focused on code aesthetics. Next, we propose agentic reward feedback, a multi-agent system that evaluates executability, static aesthetics, and interactive aesthetics. Building on this, we develop GRPO-AR, which integrates these signals into the GRPO algorithm for joint optimization of functionality and code aesthetics. Finally, we develop OpenDesign, a benchmark for assessing code aesthetics. Experimental results show that combining supervised fine-tuning on AesCode-358K with reinforcement learning using agentic reward feedback significantly improves performance on OpenDesign and also enhances results on existing benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o and GPT-4.1, and achieves performance comparable to large open-source models with 480B-685B parameters, underscoring the effectiveness of our approach.

Эстетика кода с агентивным вознаграждением за обратную связь

Code Aesthetics with Agentic Reward Feedback

Аннотация

Support